精华内容
参与话题
问答
  • 数据科学

    千次阅读 2013-07-31 23:25:34
     数据科学最近成为计算机的热门领域。数据科学是利用计算机的运算能力对数据进行处理,从数据中提取信息,进而形成“知识”。它已经影响了计算机视觉、信号处理、自然语言识别等计算机分支。数据科学已经在IT、金融...

    作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢! 

     

    数据科学最近成为计算机的热门领域。数据科学是利用计算机的运算能力对数据进行处理,从数据中提取信息,进而形成“知识”。它已经影响了计算机视觉、信号处理、自然语言识别等计算机分支。数据科学已经在IT、金融、医学、自动驾驶等领域得到广泛使用。(如果你熟知中情局的棱镜泄密事件,你会发现数据科学已经在情报领域广泛使用。)

     

    在这系列文章中,我希望能完成从概率论,统计,到机器学习的整个数据分析的链条。传统意义上的数据处理是用统计方法实现的,而概率论是统计的基础。随着计算机处理能力的增强,一些需要大量运算的数据分析方法得到快速发展。机器学习实际上是一个混合体,包括一些在计算机领域中发展的算法,也包括一些传统统计中已经存在,但受限于计算能力的统计方法。另一方面,从数据中提炼知识是机器学习的主要目的,这与统计推断密切相关。因此,从传统的概率和统计出发,更容易理解机器学习的内涵。

    当然,这样做的困难之处是要覆盖许多内容。严格的叙述有时会显得比较无聊。我会尽力引入实用的编程例子,以便能形成更好的触觉。编程工具会以Python语言为主,配以第三方的包,比如Numpy, Scipy, Matplotlib, scikit-learn。统计和机器学习同样可以在其他语言中实现,比如Matlab和R语言。如果你熟悉相应的工具,不难写出类似功能的代码。

     

    概率论

    计数

    概率公理

    条件概率

    随机变量

    离散分布

    连续分布

    联合分布

    随机变量的函数

    期望与方差

    极限理论

     

    统计基础

    数据描述

    参数估计

    区间估计

    假设检验

    线性回归

    ANOVA

    无参估计

    贝叶斯方法

     

    多变量统计

    机器学习

     


    <script type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js"></script>
    展开全文
  • 数据科学是一门内涵很广的学科,它涉及到统计分析、机器学习以及计算机科学三方面的知识和技能。本课程将深入浅出、全面系统地介绍了这门学科的内容。通过这门课程,同学可以了解并熟悉如下的开源工具:scikit-learn...
  • 数据科学家 VS 真数据科学

    千次阅读 2017-06-07 09:58:23
    如今数据科学书籍、认证和文凭,如雨后春笋般层出不穷。但许多仅仅是镜花水月:许多人钻了这一新名词的空子,将旧酒(比如统计学和R编程)放在了“数据科学”这个新瓶里。 本文选自《数据天才:数据科学家修炼之道》...

    如今数据科学书籍、认证和文凭,如雨后春笋般层出不穷。但许多仅仅是镜花水月:许多人钻了这一新名词的空子,将旧酒(比如统计学和R编程)放在了“数据科学”这个新瓶里。
    本文选自《数据天才:数据科学家修炼之道》。

    R语言编程跟伪数据科学为何扯上了关系?

      R是一种有20多年历史的开源统计编程语言及编译环境,是商业化产品S+的后继者。R一直以来都局限于内存数据处理,在统计圈子里非常流行,并因其出色的可视化效果为人称道。一些新型的开发环境通过创建R程序包或者将其扩展到分布式架构里(比如将R与Hadoop结合的RHadoop),将R(限于在内存里处理数据)的能力扩大。其他程序语言当然也存在跟伪数据科学沾边的情况,比如说SAS,但不及R这么流行。说到SAS,它价格高昂,在政府机构或者实体企业的应用更为广泛。但在过去10年数据快速增长的领域(如搜索引擎、社交媒体、移动数据、协同过滤推荐等)运用不多。R跟C、Perl或者Python的语法不一样(后三者语法根源一样),其简易性使得写R的程序员比较广泛。R还有很多程序包和不错的用户界面,SAS却难学很多。

    管理决策层在搭建其数据科学家团队时,有时也不是很清楚他们想要的到底是什么。

      他们往往最终招募的是很纯粹的技术极客、计算机科学家,或者缺乏恰当大数据经验的人。人力资源部门对于数据科学的了解也不会好到哪里,因此导致更为严重的问题,他们给出的招聘广告就是不断重复类似的关键词:Java、Python、MapReduce、R、Hadoop和NoSQL。

    数据科学真的就是这些技能的混合吗?

      **MapReduce**只是一个将数据分解为子集,在不同机器上分开处理,并把所有结果集合起来,从而处理大数据的泛化框架。因此它涉及的是处理大数据的分布式框架,用到的这些服务器和设备则组成云(Cloud)。

      **Hadoop**是MapReduce的一种实现,就像C++是面向对象编程的实现一样。

      **NoSQL**意味着“Not Only SQL(意为不单只是SQL)”,是指能更新颖、更高效地访问(比如MapReduce)数据的数据库或数据库管理系统,有时它是作为SQL(标准数据库查询语言)之下的隐藏层而存在的。

      除了MapReduce以外,还有其他框架——例如,图形数据库和环境,它们依赖于节点和边这类概念,来管理和访问数据(通常是空间数据)。这些概念并不一定是新的。在谷歌存在之前,分布式体系结构已被应用到搜索技术环境中了。15年前,我写Perl脚本进行哈希连接(一种NoSQL连接,用来连接或合并数据库中的两个表)。然而,现在一些数据库厂商提供的哈希连接,是SQL连接的一个快速替代品。哈希连接在本书后面还会讨论到。它们使用哈希表,并依赖于名称-值对的形式。我想说的结论是,有时MapReduce、NoSQL、Hadoop、Python(一种优秀的脚本语言,往往用于处理文本和非结构化数据)会被认为是Perl的后继者,但它们根源于几十年前就开发出的系统和技术,只是在过去的10年里变得更成熟而已,但数据科学并不只是这些。

      事实上,你可以成为一名真正的数据科学家,且不需要掌握这些技能。NoSQL和MapReduce不是新概念——在这些关键词被创建之前,就有很多人接触到它们。

    成为一名数据科学家,你需要以下能力。

    • 敏锐的商业头脑。
    • 真正的大数据专业知识(例如,可以在几个小时内快速地处理一个5 000万行的数据集)。
    • 认知数据的能力。
    • 对模型具有猜疑精神。
    • 了解大数据“诅咒”。
    • 有能力沟通并理解管理人员正在试图解决哪些问题。
    • 能正确评估付你工资所能带来的回报(ROI)或效益提升(lift)。
    • 能够快速地识别一个简单的、健壮的、可扩展的解决方案。
    • 能够说服并推动管理人员,即使不情愿,也要为了公司、用户和股东的利益,转到正确的方向上。
    • 真正热爱数据分析。
    • 成功案例的实际应用经验。
    • 数据架构知识。
    • 数据收集和清理技能。
    • 计算复杂度的基础知识——如何开发健壮的、高效的、可扩展的、可移植的架构。
    • 良好的算法知识。

    数据科学家在商业分析、统计学和计算机科学等领域也是通才,比如会掌握这些专业知识:健壮性、实验设计、算法复杂度、仪表盘和数据可视化。一些数据科学家也是数据策略师——他们可以开发数据收集策略,并使用数据来发现可操作的、能对商业产生影响的见解。这就要求数据科学家具有创造性,能根据业务要求,制定分析、提出解决方案。

    要理解数据科学,所需的基本数学知识包括:

    • 代数,如果可能的话,包括基本矩阵理论。
    • 微积分入门课程。要掌握的理论不多,只需要理解计算的复杂度和O标记法即可。了解特殊函数,包括对数、指数、幂函数。微分方程、积分和复数不是必要的。
    • 统计与概率的入门课程,要了解随机变量、概率、均值、方差、百分位数、实验设计、交叉验证、拟合度和稳健统计的概念(不需要了解技术细节,而是达到本书介绍的程度即可)。

    从技术的角度,要掌握的重要技能和知识有R、Python(或Perl)、Excel、SQL、图形(可视化)、FTP、基本的UNIX命令(sort、grep、head、tail、管道和重定向操作符、cat、cron定时等),以及对如何设计和访问数据库有基本了解。了解分布式系统如何工作和在哪里能发现瓶颈(是在硬盘和内存之间的数据传输,还是在互联网上),这也很重要。最后,要了解网络爬虫基本知识,这有助于获取互联网上能找到的非结构化数据。

    伪数据科学的例子

      这里有个伪数据科学的例子,说明数据科学家要开展工作,为什么需要遵循标准和最佳实践。这里讨论的例子,并不是说它们是不好的产品——实际上,它们有很多的内在价值——但跟真的数据科学无关。原因有以下两点:

    • 首先,部分统计学家没有参与到大数据革命中。虽然有些人还写了关于应用数据科学的书,但只是重新包装原来的统计课程。
    • 第二,适合大数据集的方法需要变化——按2005年的大数据定义,当有2 000万行数据时,才有资格成为大数据——但2010年后不能再这样划分,因为大数据至少是TB级的。

    不少人认为数据科学是统计学的一个新名字,他们把数据科学和伪数据科学,以及2005年的大数据定义与2013年的大数据定义弄混淆了。现代数据也有很大的不同,已经被描述为3个V:速度(velocity)(实时、快速流动)、多样化(variety)(结构化、非结构化,如微博内容)和大数据量(volume)。我会增加真实性(veracity)和价值(value)。

    例子:某一本数据科学电子书

      查看一所著名大学2012年的数据科学训练手册,书的大部分内容是关于旧的统计理论。这本书用R来说明各种概念。当用逻辑回归处理仅仅1万行数据时,并不是大数据科学,它是伪数据科学。这本电子书全部关于小数据,最后几章例外,在那里你会学到一点SQL(嵌入在R代码中)的知识和如何使用R包从Twitter提取微博内容,且创造出作者所说的词云(它和云计算没关系)。

      即使提取Twitter内容的项目也还是小数据,也没有分布式体系结构(例如,MapReduce)。事实上,该书从来没有谈到数据架构。该书的水平是初级的。每章以简单的方式(适合高中学生阅读)简短介绍大数据和数据科学,跟该书实际涉猎的小数据科学不搭,跟项目和技术展示脱节。

      也许作者增加了这些简短的段落,是为了可以将他的“R统计”的电子书,重新改名为“数据科学的介绍”。它是免费的、很好的、写得很棒的书,且会使高中学生对统计和编程感兴趣。但它与数据科学无关。

      本文选自《数据天才:数据科学家修炼之道》,点此链接可在博文视点官网查看此书。
                          图片描述
        想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                             图片描述

    展开全文
  • 本课程为Python数据分析方向的入门课程,课程讲解了Python数据分析避不开的Numpy、Pandas及两种常见可视化工具Matplotlib、Seaborn模块进行详细解读,帮助学生掌握数据分析的关键知识,再基础技能学习后辅以四大经典...
  • 什么是数据科学?众说纷纭。这是可以理解的,因为数据科学还处在创立的过程中。科学的魅力也在于此,比如物理学,从牛顿力学、到狭义相对论、到广义相对论、到量子力学,它处在不断整理、推翻、重建的的过程中,这是...

    什么是数据科学?众说纷纭。这是可以理解的,因为数据科学还处在创立的过程中。科学的魅力也在于此,比如物理学,从牛顿力学、到狭义相对论、到广义相对论、到量子力学,它处在不断整理、推翻、重建的的过程中,这是一个动态的过程。

    有专家认为,为培养人才计,数据科学专业的建立是迫在眉睫的,笔者是同意这样的看法的。从国家意志层面,我们看到,截至2018年3月,教育部已经分三批,批准建立“数据科学与大数据技术”新专业,至此共有200多所高校获批建设该专业。

     

    有专家认为,数据科学至少包括两个方面,即数据的科学和科学的数据。这种提法值得商榷。
    所谓科学的数据的提法,来自于微软研究院汇编出版的《第四范式:数据密集型科学发现》。科学研究的第一范式,为基于实证方法的研究范式;第二范式,为基于理论推演的理论式研究;第三范式,为基于计算机仿真的计算研究;第四范式,则是基于数据科学的数据密集型研究。基于大型强子对撞机的实验数据实现希格斯玻色子的发现、基于LIGO实验数据对引力波的确认、基于NASA数据寻找系外行星等,都体现了基于大规模数据的科学发现的特点。

    “科学的第四范式”可以说先于大数据和数据科学的提出而提出,“科学的第四范式”和数据科学的关系,体现了应用驱动基础理论创新的特点。

    但是我们不能够把数据科学,归结为科学的数据和数据的科学两个方面。

    因为科学的数据,终究是数据科学的一个应用而已,两者不管谁先谁后出现。数据科学应该研究数据的根本问题,也就是它是关于数据的科学。科学的数据,和政府的数据、金融的数据、互联网的数据、电商的数据一样,都是数据科学的应用,不应该把科学的数据,单拎出来,强调它的重要性。

    因为,倘若如此,容易引起读者的思想混乱,对于读者建立合理恰当的知识体系,是非常不利的。打个比方,一个家庭里有好几个兄弟姐妹,其中一位可以和父母、亲戚在大厅上桌吃饭,但是其他几位却只能在厨房,简单吃点,潦草了事,上不得台面,这样的家庭和谐吗?很不和谐嘛。

    本文所传达的观点,用下面的一张图可以清晰地表达。

    数据科学概论网上资源

    https://blog.csdn.net/xiongpai1971/article/details/89364071

     

    展开全文
  • 数据预处理的过程主要包括:数据质量分析、数据审计、数据清洗、数据集成、数据变换、数据脱敏、数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。本文将...

    分类目录:《数据科学家之路》总目录

    现实世界中数据大多都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量,我们一般会在对数据建模前对数据进行预处理。数据预处理的过程主要包括:数据质量分析、数据审计、数据清洗、数据集成、数据变换、数据脱敏、数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。本文将介绍数据预处理技术的一些基本步骤,让读者对数据预处理技术有个大体的了解,后文会分别详细介绍数据预处理不同阶段的各个技术。

    数据质量分析

    数据质量分析处于数据预处理的前期,属于数据探索性分析阶段。数据质量分析主要从数据的正确性、完整性、一致性等方面进行考察

    数据审计

    原始数据应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全。准确性审核主要是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际,并且检查数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检查计算检查

    逻辑检查

    逻辑检查主要是审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象,此方法主要适合对定性数据的审核。

    计算检查

    计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误,主要用于对定量数据的审核。 比如,在对房地产售价数据进行数据审计时,往往会出现【建筑面积 * 单价 ≠ 总价】的情况,其原因是房地产公司在实际销售时往往会有面积赠送、半价面积区域等情况,我们在做数据审计时找到这些问题,探寻其原因,为接下来的数据清洗等步骤打好基础。

    对于通过其他渠道取得的二手资料,除了对其完整性和准确性进行审核外,还应该着重审核数据的适用性和时效性。二手资料可以来自多种渠道,有些数据可能是为特定目的通过专门调查而获得的,或者是已经按照特定目的需要做了加工处理。对于使用者来说,首先应该弄清楚数据的来源、数据的口径以及有关的背景资料,以便确定这些资料是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,还要对数据的时效性进行审核,对于有些时效性较强的问题,如果取得的数据过于滞后,可能失去了研究的意义。一般来说,应尽可能使用最新的统计数据。数据经审核后,确认适合于实际需要,才有必要做进一步的加工整理。综上所述,数据审核的内容主要包括以下四个方面:

    • 准确性审核:主要是从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的误差。
    • 适用性审核:主要是根据数据的用途,检查数据解释说明问题的程度。具体包括数据与调查主题、与目标总体的界定、与调查项目的解释等是否匹配。
    • 及时性审核:主要是检查数据是否按照规定时间报送,如未按规定时间报送,就需要检查未及时报送的原因。
    • 一致性审核。主要是检查数据在不同地区或国家、在不同的时间段是否具有可比性。

    数据筛选

    对审核过程中发现的错误应尽可能予以纠正。调查结束后,当数据发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。数据筛选包括两方面的内容:

    • 将某些不符合要求的数据或有明显错误地数据予以剔除
    • 将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。

    数据的筛选在市场调查、经济分析、管理决策中是十分重要的。

    数据排序

    数据排序是按照一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,为重新归类或分组等提供依据。在某些场合,排序本身就是分析的目的之一。排序可借助于计算机很容易的完成。

    数据清洗

    数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清洗”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。

    数据集成

    数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。

    数据变换

    通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。

    数据归约

    数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。

    展开全文
  • 一、数据科学的生命周期 原文:DS-100/textbook/notebooks/ch01 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 在数据科学中,我们使用大量不同的数据集来对世界做出结论。在这个课程中,我们...
  • Python数据科学常用工具包视频教程

    千人学习 2017-12-15 17:45:36
    Python数据科学必备工具包视频培训课程:该教程共包含Python数据教程领域四大核心库,科学技术库Numpy,数据分析处理库Pandas,可视化库Matplotlib,可视化库Seaborn。通过学习本教程,可以掌握Numpy矩阵、数组、...
  • 数据科学 IPython 笔记本 7.2 数据整理

    千次阅读 2019-01-13 21:50:34
    7.2 数据整理 原文:Data Wrangling 译者:飞龙 协议:CC BY-NC-SA 4.0(原文协议:Apache License 2.0) 数据流 直接从 GitHub 挖掘数据,Viz由 GitHub API 提供支持,并利用以下内容: 通过 Python 使用github...
  • Julia 数据科学应用

    千次阅读 多人点赞 2018-11-06 11:55:34
    在介绍了 Julia 对于数据科学社区的重要性和若干数据科学基本准则之后,本书讲解了 Julia 基础知识,包括如何安装 Julia 及其功能强大的程序库。本书通过丰富的示例展示了如何使用 Julia 命令、数据集和函数。 本书...
  • Python 数据科学手册

    千次阅读 2018-11-06 11:56:00
    本书共五章,每章介绍一到两个 Python 数据科学中的重点工具包。 第1章 从 IPython 和 Jupyter 开始,它们提供了数据科学家需要的计算环境; 第2章讲解能提供 ndarray 对象的 NumPy,它可以用 Python 高效地存储和...
  • 数据科学家从入门到高阶视频精讲

    千人学习 2017-12-04 14:45:36
    数据科学家入门视频教程,数据科学家职业概述,《哈佛商业评论》宣布,“数据科学家”是二十一世纪性感的职业。数据科学家究竟是一群怎样的人?各行各业高薪难求的他们又是如何开启自己的职业生涯的? 本次分享来自...
  • 数据科学是一门交叉学科,包括了应用数学、统计、模式识别、机器学习、数据可视化以及计算机知识等,数据科学通过数据解决实际生活中的各类问题。 此次课程是根据投资学中马科维兹的均值方差模型对股市上挑选的个股...
  • 本节是《Python 数据科学手册》(Python Data Science Handbook)的摘录。 许多教程中的数据与现实世界中的数据之间的差异在于,真实世界的数据很少是干净和同构的。特别是,许多有趣的数据集缺少一些数据。为了使...
  • 本节是《Python 数据科学手册》(Python Data Science Handbook)的摘录。 在前一章中,我们详细介绍了 NumPy 及其ndarray对象,它在 Python 中提供了密集类型数组的高效存储和操作。在这里,通过详细了解...
  • 仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源  "数据科学"(DataScience)起初叫"datalogy "。最初在...
  • 本节是《Python 数据科学手册》(Python Data Science Handbook)的摘录。 数据科学中一种常见的可视化类型是地理数据。Matplotlib 用于此类可视化的主要工具是 Basemap 工具包,它是位于mpl_too...
  • 本节是《Python 数据科学手册》(Python Data Science Handbook)的摘录。 在第二章中,我们详细介绍了在 NumPy 数组中访问,设置和修改值的方法和工具。这些包括索引(例如,arr[2,1]),切片(例如,arr[:, 1:5]....
  • 作为一门新兴的学科,数据科学依赖两个因素:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充满了数据,这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、...
  • 南开大学统计与数据科学院夏令营

    万次阅读 2020-05-21 11:11:51
    为给有志于在统计学、数据科学等领域继续深造的优秀大学生提供一个开阔学术视野、了解学术前沿的机会,南开大学统计与数据科学学院将于2020年7月17日至7月19日,暂定线上举办“2020年全国优秀大学生夏令营”活动。...
  • 本节是《Python 数据科学手册》(Python Data Science Handbook)的摘录。 NumPy 的一个重要部分是能够执行快速的逐元素运算,包括基本算术(加法,减法,乘法等),和更复杂的运算(三角函数,指数函数和对数函数...
  • Python数据科学:方差分析

    万次阅读 2018-12-18 15:35:24
    本次介绍:方差分析:一个多分类分类变量与一个连续变量间的关系。其中分类个数大于两个,分类变量也可以有多个。当分类变量为多个时,对分类个数不做要求,即可以为二分分类变量。 之前已经介绍的变量分析: ...
  • 数据科学导论

    千次阅读 2019-02-12 00:48:11
    清华大学数据科学系列课程之一《数据科学导论》心得
  • 数据科学很难成为没有数据的科学。 因此重要的是,我们通过了解我们的数据是如何生成的,来启动任何数据分析。 在本章中,我们将讨论数据来源。 虽然术语“数据来源”通常指的是数据的整个历史,以及它随时间变化的...
  • 四、数据清理 原文:DS-100/textbook/notebooks/ch04 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 数据以多种格式出现,并且在分析的实用性方面差别很大。尽管我们希望,我们所有的数据都以...
  • 二、数据准备 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 从字典加载特征 from sklearn.feature_extraction import DictVectorizer staff = [{'name': 'Steve Miller', 'age': 33.}, {'name': 'Lyndon...
  • 数据科学 IPython 笔记本 翻译完成

    千次阅读 2019-03-27 10:02:42
    原文:donnemartin/data-science-ipython-notebooks 译者:飞龙 协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远。 ApacheCN 机器学习交流群 ...数据科学 IPython...
  • 本节是《Python 数据科学手册》(Python Data Science Handbook)的摘录。 译者:飞龙 协议:CC BY-NC-SA 4.0 数据驱动的科学和有效计算需要了解数据的存储和操作方式。 本节概述了如何在 Python 语言本身中处理...
  • 2 工具:数据挖掘,数据科学和可视化软件 3 教科书 4 教育:网络研讨会,课程,证书和学位 5 数据 6 比赛 7 互动:会议,团体和社交网络 more 前言 最近一直一再学习数据挖掘的相关知识,这是一篇国外的文章,...
  • 问题1:从给定字典中寻找关键联系人 关系序列:friendships=[(0,1),(0,2),(1,2),(1,3),(2,3),(3,4),(4,5),(5,6),(5,7),(6,8),(7,8),(8,9)] 每个属性列表:users=[{"id":0,"name":"Hero"},{"id":1,"name":"Dunn"},{...

空空如也

1 2 3 4 5 ... 20
收藏数 53,618
精华内容 21,447
热门标签
关键字:

数据科学