精华内容
下载资源
问答
  • 什么是数据科学?众说纷纭。这是可以理解的,因为数据科学还处在创立的过程中。科学的魅力也在于此,比如物理学,从牛顿力学、到狭义相对论、到广义相对论、到量子力学,它处在不断整理、推翻、重建的的过程中,这是...

    什么是数据科学?众说纷纭。这是可以理解的,因为数据科学还处在创立的过程中。科学的魅力也在于此,比如物理学,从牛顿力学、到狭义相对论、到广义相对论、到量子力学,它处在不断整理、推翻、重建的的过程中,这是一个动态的过程。

    有专家认为,为培养人才计,数据科学专业的建立是迫在眉睫的,笔者是同意这样的看法的。从国家意志层面,我们看到,截至2018年3月,教育部已经分三批,批准建立“数据科学与大数据技术”新专业,至此共有200多所高校获批建设该专业。

     

    有专家认为,数据科学至少包括两个方面,即数据的科学和科学的数据。这种提法值得商榷。
    所谓科学的数据的提法,来自于微软研究院汇编出版的《第四范式:数据密集型科学发现》。科学研究的第一范式,为基于实证方法的研究范式;第二范式,为基于理论推演的理论式研究;第三范式,为基于计算机仿真的计算研究;第四范式,则是基于数据科学的数据密集型研究。基于大型强子对撞机的实验数据实现希格斯玻色子的发现、基于LIGO实验数据对引力波的确认、基于NASA数据寻找系外行星等,都体现了基于大规模数据的科学发现的特点。

    “科学的第四范式”可以说先于大数据和数据科学的提出而提出,“科学的第四范式”和数据科学的关系,体现了应用驱动基础理论创新的特点。

    但是我们不能够把数据科学,归结为科学的数据和数据的科学两个方面。

    因为科学的数据,终究是数据科学的一个应用而已,两者不管谁先谁后出现。数据科学应该研究数据的根本问题,也就是它是关于数据的科学。科学的数据,和政府的数据、金融的数据、互联网的数据、电商的数据一样,都是数据科学的应用,不应该把科学的数据,单拎出来,强调它的重要性。

    因为,倘若如此,容易引起读者的思想混乱,对于读者建立合理恰当的知识体系,是非常不利的。打个比方,一个家庭里有好几个兄弟姐妹,其中一位可以和父母、亲戚在大厅上桌吃饭,但是其他几位却只能在厨房,简单吃点,潦草了事,上不得台面,这样的家庭和谐吗?很不和谐嘛。

    本文所传达的观点,用下面的一张图可以清晰地表达。

    数据科学概论网上资源

    https://blog.csdn.net/xiongpai1971/article/details/89364071

     

    展开全文
  • 数据科学家 VS 真数据科学

    千次阅读 2017-06-07 09:58:23
    如今数据科学书籍、认证和文凭,如雨后春笋般层出不穷。但许多仅仅是镜花水月:许多人钻了这一新名词的空子,将旧酒(比如统计学和R编程)放在了“数据科学”这个新瓶里。 本文选自《数据天才:数据科学家修炼之道》...

    如今数据科学书籍、认证和文凭,如雨后春笋般层出不穷。但许多仅仅是镜花水月:许多人钻了这一新名词的空子,将旧酒(比如统计学和R编程)放在了“数据科学”这个新瓶里。
    本文选自《数据天才:数据科学家修炼之道》。

    R语言编程跟伪数据科学为何扯上了关系?

      R是一种有20多年历史的开源统计编程语言及编译环境,是商业化产品S+的后继者。R一直以来都局限于内存数据处理,在统计圈子里非常流行,并因其出色的可视化效果为人称道。一些新型的开发环境通过创建R程序包或者将其扩展到分布式架构里(比如将R与Hadoop结合的RHadoop),将R(限于在内存里处理数据)的能力扩大。其他程序语言当然也存在跟伪数据科学沾边的情况,比如说SAS,但不及R这么流行。说到SAS,它价格高昂,在政府机构或者实体企业的应用更为广泛。但在过去10年数据快速增长的领域(如搜索引擎、社交媒体、移动数据、协同过滤推荐等)运用不多。R跟C、Perl或者Python的语法不一样(后三者语法根源一样),其简易性使得写R的程序员比较广泛。R还有很多程序包和不错的用户界面,SAS却难学很多。

    管理决策层在搭建其数据科学家团队时,有时也不是很清楚他们想要的到底是什么。

      他们往往最终招募的是很纯粹的技术极客、计算机科学家,或者缺乏恰当大数据经验的人。人力资源部门对于数据科学的了解也不会好到哪里,因此导致更为严重的问题,他们给出的招聘广告就是不断重复类似的关键词:Java、Python、MapReduce、R、Hadoop和NoSQL。

    数据科学真的就是这些技能的混合吗?

      **MapReduce**只是一个将数据分解为子集,在不同机器上分开处理,并把所有结果集合起来,从而处理大数据的泛化框架。因此它涉及的是处理大数据的分布式框架,用到的这些服务器和设备则组成云(Cloud)。

      **Hadoop**是MapReduce的一种实现,就像C++是面向对象编程的实现一样。

      **NoSQL**意味着“Not Only SQL(意为不单只是SQL)”,是指能更新颖、更高效地访问(比如MapReduce)数据的数据库或数据库管理系统,有时它是作为SQL(标准数据库查询语言)之下的隐藏层而存在的。

      除了MapReduce以外,还有其他框架——例如,图形数据库和环境,它们依赖于节点和边这类概念,来管理和访问数据(通常是空间数据)。这些概念并不一定是新的。在谷歌存在之前,分布式体系结构已被应用到搜索技术环境中了。15年前,我写Perl脚本进行哈希连接(一种NoSQL连接,用来连接或合并数据库中的两个表)。然而,现在一些数据库厂商提供的哈希连接,是SQL连接的一个快速替代品。哈希连接在本书后面还会讨论到。它们使用哈希表,并依赖于名称-值对的形式。我想说的结论是,有时MapReduce、NoSQL、Hadoop、Python(一种优秀的脚本语言,往往用于处理文本和非结构化数据)会被认为是Perl的后继者,但它们根源于几十年前就开发出的系统和技术,只是在过去的10年里变得更成熟而已,但数据科学并不只是这些。

      事实上,你可以成为一名真正的数据科学家,且不需要掌握这些技能。NoSQL和MapReduce不是新概念——在这些关键词被创建之前,就有很多人接触到它们。

    成为一名数据科学家,你需要以下能力。

    • 敏锐的商业头脑。
    • 真正的大数据专业知识(例如,可以在几个小时内快速地处理一个5 000万行的数据集)。
    • 认知数据的能力。
    • 对模型具有猜疑精神。
    • 了解大数据“诅咒”。
    • 有能力沟通并理解管理人员正在试图解决哪些问题。
    • 能正确评估付你工资所能带来的回报(ROI)或效益提升(lift)。
    • 能够快速地识别一个简单的、健壮的、可扩展的解决方案。
    • 能够说服并推动管理人员,即使不情愿,也要为了公司、用户和股东的利益,转到正确的方向上。
    • 真正热爱数据分析。
    • 成功案例的实际应用经验。
    • 数据架构知识。
    • 数据收集和清理技能。
    • 计算复杂度的基础知识——如何开发健壮的、高效的、可扩展的、可移植的架构。
    • 良好的算法知识。

    数据科学家在商业分析、统计学和计算机科学等领域也是通才,比如会掌握这些专业知识:健壮性、实验设计、算法复杂度、仪表盘和数据可视化。一些数据科学家也是数据策略师——他们可以开发数据收集策略,并使用数据来发现可操作的、能对商业产生影响的见解。这就要求数据科学家具有创造性,能根据业务要求,制定分析、提出解决方案。

    要理解数据科学,所需的基本数学知识包括:

    • 代数,如果可能的话,包括基本矩阵理论。
    • 微积分入门课程。要掌握的理论不多,只需要理解计算的复杂度和O标记法即可。了解特殊函数,包括对数、指数、幂函数。微分方程、积分和复数不是必要的。
    • 统计与概率的入门课程,要了解随机变量、概率、均值、方差、百分位数、实验设计、交叉验证、拟合度和稳健统计的概念(不需要了解技术细节,而是达到本书介绍的程度即可)。

    从技术的角度,要掌握的重要技能和知识有R、Python(或Perl)、Excel、SQL、图形(可视化)、FTP、基本的UNIX命令(sort、grep、head、tail、管道和重定向操作符、cat、cron定时等),以及对如何设计和访问数据库有基本了解。了解分布式系统如何工作和在哪里能发现瓶颈(是在硬盘和内存之间的数据传输,还是在互联网上),这也很重要。最后,要了解网络爬虫基本知识,这有助于获取互联网上能找到的非结构化数据。

    伪数据科学的例子

      这里有个伪数据科学的例子,说明数据科学家要开展工作,为什么需要遵循标准和最佳实践。这里讨论的例子,并不是说它们是不好的产品——实际上,它们有很多的内在价值——但跟真的数据科学无关。原因有以下两点:

    • 首先,部分统计学家没有参与到大数据革命中。虽然有些人还写了关于应用数据科学的书,但只是重新包装原来的统计课程。
    • 第二,适合大数据集的方法需要变化——按2005年的大数据定义,当有2 000万行数据时,才有资格成为大数据——但2010年后不能再这样划分,因为大数据至少是TB级的。

    不少人认为数据科学是统计学的一个新名字,他们把数据科学和伪数据科学,以及2005年的大数据定义与2013年的大数据定义弄混淆了。现代数据也有很大的不同,已经被描述为3个V:速度(velocity)(实时、快速流动)、多样化(variety)(结构化、非结构化,如微博内容)和大数据量(volume)。我会增加真实性(veracity)和价值(value)。

    例子:某一本数据科学电子书

      查看一所著名大学2012年的数据科学训练手册,书的大部分内容是关于旧的统计理论。这本书用R来说明各种概念。当用逻辑回归处理仅仅1万行数据时,并不是大数据科学,它是伪数据科学。这本电子书全部关于小数据,最后几章例外,在那里你会学到一点SQL(嵌入在R代码中)的知识和如何使用R包从Twitter提取微博内容,且创造出作者所说的词云(它和云计算没关系)。

      即使提取Twitter内容的项目也还是小数据,也没有分布式体系结构(例如,MapReduce)。事实上,该书从来没有谈到数据架构。该书的水平是初级的。每章以简单的方式(适合高中学生阅读)简短介绍大数据和数据科学,跟该书实际涉猎的小数据科学不搭,跟项目和技术展示脱节。

      也许作者增加了这些简短的段落,是为了可以将他的“R统计”的电子书,重新改名为“数据科学的介绍”。它是免费的、很好的、写得很棒的书,且会使高中学生对统计和编程感兴趣。但它与数据科学无关。

      本文选自《数据天才:数据科学家修炼之道》,点此链接可在博文视点官网查看此书。
                          图片描述
        想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                             图片描述

    展开全文
  • 数据科学导论

    千次阅读 2019-02-12 00:48:11
    清华大学数据科学系列课程之一《数据科学导论》心得

    这篇博客基于袁博老师的《数据科学导论》这一门慕课数据科学导论
    ,是为记录自己学习完这一门课后的所感所想。
    也希望自己今后在数据科学这条路上可以坚定地走下去,不忘记欣赏两边的美景,更不忘记自己为何出发。

    数据科学初探

    谈到数据科学,就不可避免地牵扯到其定义,目前对于数据科学的定义并没有共识,但大体不差,同时提到数据科学,大数据这些热门词汇就需要提及。下面就谈谈个人对于数据科学和大数据的认识。
    数据(data)是对事物的原始描述与记录,是构成信息和知识的原始材料。人们常通过属性来刻画和了解事物,其属性的取值就是数据,类型包括:离散型、连续型、符号型和文本型等。
    大数据(big data)又称巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。大数据也可以定义为来自各种来源的大量非结构化或结构化的数据。
    数据科学(data science)又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。作为一门交叉学科,它结合了诸多领域中的理论与技术,包括应用数学、统计学、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。
    个人看来,数据科学是一门关于数据的科学,其蕴含面十分广阔,大数据仅仅是其中的一小部分,在以前的时代,由于数据量较小,人们对数据的认知停留在统计学的理论及方法上,可是随着信息(数据的加工品)爆炸,人们意识到传统的统计学已经无法满足当今时代的需求,因此大数据便应运而生,但是我们不能止步于头疼医头脚疼医脚,数据科学作为一门关于数据的宏大科学便被提出来并加以研究。

    数据采集

    要想研究数据,就必须知道数据的来源及收集方法。
    现在数据产生来源主要有机构(政府、高校等)个人(微信、微博等)及机器(手环、手机等),其产生的数据量依次递增。
    一个典型的用于数据采集的硬件产品通常包含电源管理模块、信号处理模块、传感器模块和无线通信模块。
    (关于数据采集的硬件产品的具体工作原理在袁博老师这门课的第二章有所讲解,感兴趣的可自行观看)

    数据可视化

    数据可视化旨在借助于图形化手段,清晰地表达数据所传递的信息。
    数据可视化充分发挥了人类视觉的感知能力,可以让观看者简单直接地了解数据所要表达的信息。所谓耳听为虚眼见为实,此言不假。但是也有一句话值得注意,眼睛看到的不一定是真的,不信你数数下面有几根木板:
    在这里插入图片描述
    数据可视化时,要注意突出主题,形象生动,避免枯燥乏味或华而不实。根据数据所表达的信息的特征和需求的不同,选择合适的图表来进行表示。
    可视化图表种类繁多,在此不再赘述。
    从本质上说,可视化架起了人与数据之间沟通的桥梁,有助于发挥人类专家的领域知识和主观能动性。同时,可视化贯穿于从原始数据的直观描述到对数据挖掘过程的理解,再到对数据分析结果的展示,这一完整的过程,是数据科学领域不可或缺的一部分。(袁博老师语)
    Visualization is challenging but no visualization is fatal.
    个人认为对于数据可视化,简洁合适即为美
    在此推荐我曾经读过的一本关于数据可视化的图书:邱南申(Nathan Yan)所著的《数据之美:一本书学会可视化设计》,同时还有我将要读的其姊妹篇《鲜活的数据:数据可视化指南》,个人建议在学习统计分析数据时同步阅读,将其中的感悟加以实践,知行合一,大有裨益。

    高性能计算

    高性能计算是大数据技术的核心,是数据科学的发动机。
    在大数据时代,传统的单核串行处理已经无法满足海量数据的处理需求,因此多核并行处理技术便应运而生。相比于传统的数据处理技术,多核并行处理可以充分提高计算速度。其中,并行处理是其关键技术。

    并行处理前提

    并不是所有的程序都可并行处理,因此程序的可并行性是其并行处理的前提。记 I(i)为 i 指令的输入,O(i) 为 i 指令的输出,程序可并行需满足以下两个条件:

    1. 一条指令的输入和另一条指令的输出无关,即 I(i) ∩ O(j) = ∅
    2. 两条指令的输出无关,即 O(i) ∩ O(j) = ∅

    并行处理内涵

    并行(Parallel)处理,顾名思义,指计算机系统中能同时执行两个或多个指令的一种计算方法。
    相对于串行处理,并行计算可以划分为时间并行和空间并行。时间并行即指令流水化,指将计算机执行处理步骤拆分为多个步骤,并通过多个硬件处理单元并行执行来加快指令处理速度,类似于工厂中的流水线,多见于单核处理器;空间并行指的是使用多个处理器执行并发计算(并发指的是某一时间点多个程序处于非完毕状态,且程序都是在同一个处理机上运行,但任一时刻只能有一个程序运行,类似于我们常用的页面快速切换),适用于多核处理器。
    另外,并行计算也可以分为进程并行和线程并行,进程并行多用于分布式计算环境,线程并行多用于共享内存环境,我们常用的个人电脑多属于线程并行。使用windows操作系统的朋友对任务管理器一定不陌生(小时候为防妈妈检查快速关闭游戏的利器),其界面就很好地展示了两者概念:
    在这里插入图片描述
    在这里插入图片描述
    从上图可以看到每一个应用为一个进程,拥有独立的内存空间,而每一个进程内有多个线程,为一个执行单元。线程运行在进程的环境中,并共享其全局数据。
    从程序设计的角度看,并行可分为任务并行和数据并行,我们举个例子简单说明:例如有5名老师100份待批改的试卷,我们有两种方法可选择:一为每名老师批改20份试卷,此为数据并行;二为每名只改某一类题目,如只改填空题,此为任务并行;通常数据并行处理起来比任务并行简单。

    并行处理工具

    并行处理技术是大数据时代的产物,但是其发展是有其技术基础的,其中GPU的大力发展是其最重要的助推器。相比于传统的处理核心CPU,GPU的多核心数和运算速度快等特点恰恰是并行处理技术最为倚重的。关于GPU的概念不再赘述,值得注意的就是GPU必须依赖于CPU进行工作。
    著名的CUDAC是标准C语言的扩展,程序经过较小的修改,可以提升几十倍甚至上千倍的计算效率,展示了GPU的高性能计算特点。
    在数据科学中,Python、R和Matlab是主流编程工具。以matlab为例,目前新版的matlab已支持GPU运算,下面为袁博老师所展示的matlab的gpu计算程序:

    x = rand(911,'single','gpuArray') %gpu适合单精度浮点数的运算,gpuarray指在gpu上排列运算
    a = fft(x) %傅里叶快速变换函数支持gpu运算
    y = gather(a) %把gpu的运算结果传输到cpu上
    

    需要注意的是,小规模的计算问题并不宜采用GPU进行计算,因为其数据传输效率远低于GPU的运算速度。(这就牵扯到一个问题,我们通常认为一台计算机的计算速度是由处理器所决定的,但是制约计算机运行速度的通常是数据的传输效率)

    计算量化指标

    并行计算可以极大地提升计算效率,通常用加速比这一指标来量化其加速效果。记S=Tserial/Tparallel,即加速比为一个程序的串行版本的运行时间和它的并行版本的运行时间的比值。如下图所示,如果我们要求16个数的和,传统的串行即依次相加而得结果,需要进行15次计算;而下图的并行为以两个为一组,将16个数分为8组,每组求和后再汇总,然后再分组,再求和,依次往下,得到结果。一个程序的计算时间为最耗时的计算单元所需时间。在下图中,0号处理单元所需时间即为该程序并行处理所需时间,共计算4次。因此加速比S=15/4=3.75。
    此外考虑到并行处理时其处理核心数的不同,因此产生了一个新的计算指标:计算效率,记E=S/N,N为计算核心数。例如我们使用2个计算核心完成了其求和计算,那么计算效率E=3.75/2=1.875。

    在这里插入图片描述
    在这里要提到两个著名的定理:

    • 阿姆达尔定律(Amdahl’s law/argument):一条计算机科学界的经验法则,因吉恩·阿姆达尔而得名,代表了处理器并行运算之后效率提升的能力。阿姆达尔定律是固定负载(计算总量不变)时的量化标准,假设一个程序中可并行部分的运行时间占总用时的比例为p,N为计算核心数,则S=1/[(1-p)+p/N]。该定律表明当计算核心数足够多时,加速比的上限等于1-p的倒数。由此表明,一个程序的并行潜力取决于其中可并行的部分所占的比例。
    • 古斯塔芬森定律(Gustafson’s law):也是描述处理器并行运算之后效率提升的能力,与阿姆达尔定律不同的是,其基于不同的假设:并行版本程序的运行时间由a+b来表示,即Tparallel=a+b,其中a,b分别表示串行和并行部分的运行时间,Tserial=a+N·b,N为计算核心数,所以加速比S=a+N·b/(a+b)=N-α(N-1) for α=a/(a+b),该定律表明当串行部分的计算量保持固定,可并行部分的线性规模增加时,随着计算核心数的增加,程序理论上的加速比可以呈线性增长。

    并行处理瓶颈

    制约并行处理速度的最关键因素是通信开销,即将多个并行处理程序所得到的结果进行汇总所需花费,在对程序进行并行处理时需要加以注意。
    通常将原始问题拆分的程度越细越有助于提升并行潜力和加速比,但是线程和进程间同步和通信的开销也可能随之增大,所以需要找到一个合适的平衡点。

    数据隐私

    数据隐私想必大家都不陌生,我们每个人基本上都收到过形形色色的“关心”电话或消息,原因就在于我们的信息被泄露了,因此隐私权作为一个重要权利成为大数据时代的一个热门话题。

    经典案例

    侵犯隐私权的表现

    • 对个人数据未经授权的访问
    • 对个人敏感信息的发掘与公开
    • 对数据进行超过合理范围的使用

    如何保护隐私权

    保护隐私权的方法有两种,也可以说是对所涉及的对象做出的规范:

    • 法律所保护的信息范围
    • 法律所规范的信息主体

    社会层面应注重立法,加强监管,目前《网络安全法》、《民法总则》、《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题解释》等均对隐私权做了相关保护;
    个人层面应在平时生活中加以注意,如妥善保管个人简历、妥善处理快递单据、注册账号时尽量少提供敏感信息、使用安全的网络连接环境等。

    数据知识产权

    当今时代,人们越来越重视对版权的保护,数据知识版权自然也不例外。

    数据知识产权保护困境

    • 对用户数据的过度采集
    • 对用户历史数据如何处理
    • 用户在享受服务中产生的数据的产权归属问题

    保护措施

    为保护为保证数据产业长期健康发展,需要在法律上明确数据权属、数据流动和共享问题、数据利益的分配问题。

    • 在我国有《著作权法》、《反不正当竞争法》等对其保护
    • 被遗忘权:指人们有权利要求移除自己负面或过时的个人身份资讯搜索结果,见于欧盟《通用数据保护条例》(GDPR),我国目前尚未规定
      https://en.wikipedia.org/wiki/Right_to_be_forgotten
    • 数据可携带权:指数据主体有权从数据控制者处以结构化、常用和可机读的格式获取其向控制者提供的个人数据,见于欧盟《通用数据保护条例》,我国目前尚无此规定

    数据产权保护新挑战

    顺丰菜鸟之争:https://wiki.mbalib.com/wiki/顺丰菜鸟之争
    随着大数据时代的到来,人们意识到数据产业也会产生数据垄断,主要表现有:

    • 因数据占有造成的进入壁垒或扩张壁垒
    • 拥有海量数据形成市场支配地位,并滥用这种市场支配地位
    • 设计数据方面的垄断协议以及针对数据资产的并购

    数据科学应用

    数据科学作为一门工具性科学,在各行各业都有着广泛的应用,在《数据科学导论》这门慕课中,主要介绍了其在法律界和环境保护中的巨大作用,感兴趣的可自行前往这门慕课聆听学习。

    展开全文
  • 数据科学作为一个独特的专业领域之后,数据科学有了自己的一套体系。对“什么是数据科学?,“对数据科学在当今世界的意义的介绍,表明我们正处于一场数据科学变革的开端。现在有定期讨论(meetups)、成熟的创业...

    本书介绍

        数据科学作为一个独特的专业领域之后,数据科学有了自己的一套体系。对“什么是数据科学?,“对数据科学在当今世界的意义的介绍,表明我们正处于一场数据科学变革的开端。现在有定期讨论(meetups)、成熟的创业公司,甚至还有专注于数据科学的大学课程。麦肯锡的大数据研究报告和领英的数据表明,数据科学人才需求量很大。

    文末附本书最新免费pdf下载地址。

        主要互联网公司的成功推动了对数据科学家需求的增长。谷歌、Facebook、LinkedIn和亚马逊都通过创造性地使用数据而闻名:不仅仅是存储数据,而是将其转化为有价值的东西。无论这种价值是搜索结果、有针对性的广告还是可能的熟人名单,数据科学都在生产人们想要和重视的产品。不仅仅是互联网公司:沃尔玛不生产“数据产品”,但他们以使用数据优化零售业务的各个方面而闻名。考虑到数据科学发展的重要性,思考数据科学家为组织增加了什么,他们如何融入,以及如何雇佣和建立有效的数据科学团队是很重要的

    本书目录

     内容截图

    本书免费pdf下载地址

        微信公众号“AIMarker”回复关键字“sce20”获取下载地址。

    公众号二维码

    小程序二维码

     

    展开全文
  • 【数据可视化有什么意义?】 举一个身边的例子,我们平时在电视上看到的... 【通解数据科学 拓宽收益渠道】 如今,许多行业都有数据方向的人才需求。 掌握数据分析与可视化技能,你就可以: 【适用人群】 【三重权益】
  • 数据科学的应用案例_应用数据科学

    千次阅读 2020-07-12 19:25:54
    数据科学的应用案例 数据科学如何改善产品? (How can data science improve products?) 什么是预测模型? (What are predictive models?) 您如何从见识到原型到生产应用? (How do you go from insight to ...
  • 数据科学原理与数据处理

    千次阅读 多人点赞 2020-11-04 15:07:13
    数据科学原理与数据处理 1 Python行业分析 通过Stack OverFlow专业网站的大数据统计,Python相关技术模块访问量最大的簇是数据科学相关,然后才是后台开发。 1.1 数据处理流程 1.2 数据科学岗位分析 2 数据分析好...
  • Python 数据科学手册

    千次阅读 2018-11-06 11:56:00
    本书共五章,每章介绍一到两个 Python 数据科学中的重点工具包。 第1章 从 IPython 和 Jupyter 开始,它们提供了数据科学家需要的计算环境; 第2章讲解能提供 ndarray 对象的 NumPy,它可以用 Python 高效地存储和...
  • 一、数据科学的生命周期 原文:DS-100/textbook/notebooks/ch01 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 在数据科学中,我们使用大量不同的数据集来对世界做出结论。在这个课程中,我们...
  • 作为一门新兴的学科,数据科学依赖两个因素:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充满了数据,这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、...
  • Julia 数据科学应用

    千次阅读 多人点赞 2018-11-06 11:55:34
    在介绍了 Julia 对于数据科学社区的重要性和若干数据科学基本准则之后,本书讲解了 Julia 基础知识,包括如何安装 Julia 及其功能强大的程序库。本书通过丰富的示例展示了如何使用 Julia 命令、数据集和函数。 本书...
  • 数据科学概论Learning Road Map

    万次阅读 2019-04-17 20:30:25
    数据科学概论Learning Road Map 本书第一版出版后,引起了大量的关注。任课老师纷纷表示,愿意使用该教材开设《数据科学概论》课程。 在和一些老师的沟通和交流中,了解到他们面临的主要问题是,内容稍微有点多,...
  • 数据科学技术与应用 数据科学基础 第一次作业 答案 题目来源:中国大学MOOC-东华大学宋晖等数据科学技术与应用
  • 如果你想开始从事数据科学的工作,你可以通过避免这9个昂贵的初学者错误来节省数天,数周甚至数月的挫败感。 如果你不小心,这些错误会吞噬你最宝贵的资源:你的时间,精力和动力。 我们将它们分为三类: 学习...
  • 数据分析师、数据科学家、大数据专家三个职位的区别 2018.6.11 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 随着数据科学和大数据作为主流职业选择的出现,不少人对相关职位名称的内涵存在...
  • 仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。一、数据科学家的起源"数据科学"(DataSc...
  • 南开大学统计与数据科学院夏令营

    万次阅读 2020-05-21 11:11:51
    为给有志于在统计学、数据科学等领域继续深造的优秀大学生提供一个开阔学术视野、了解学术前沿的机会,南开大学统计与数据科学学院将于2020年7月17日至7月19日,暂定线上举办“2020年全国优秀大学生夏令营”活动。...
  • 数据科学、数据技术与数据工程

    千次阅读 2016-10-20 16:45:56
    谈到大数据,大家总会听到几个词:数据科学、数据技术和数据工程,它们之间到底有些什么区别和联系呢?   实际上,科学、技术与工程是现代“科学技术”中的三个不同领域或不同层次。 科学是对客观...
  • 数据科学家是干什么的呢?哪些地方需要数据科学家?怎么样才能成为数据科学家?如果你正因为这些问题而犹豫要不要开始学习数据科学,那么我可以告诉你,成为数据科学家其实非常简单 从行业内部的蓬勃发展,到招聘会上HR...
  • 本节是《Python 数据科学手册》(Python Data Science Handbook)的摘录。 在前一章中,我们详细介绍了 NumPy 及其ndarray对象,它在 Python 中提供了密集类型数组的高效存储和操作。在这里,通过详细了解...
  • Python数据科学常用工具包视频教程

    千人学习 2017-12-15 17:45:36
    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 Python数据科学必备工具包视频培训课程:该教程共包含Python数据教程领域四大核心库,科学技术库Numpy,数据分析处理库Pandas,可视化库Matplotlib,可视化库...
  • 数据科学之大数据知识体系大全

    千次阅读 2018-08-16 13:34:43
    原文链接:数据科学之大数据知识体系大全 1,浅谈数据科学 数据科学数据科学)这一概念自大数据崛起也随之成为数据领域的讨论热点,从去年开始,“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么...
  • 数据科学项目的完整流程介绍

    千次阅读 2019-05-13 18:37:47
    和那些数据科学比赛不同,在真实的数据科学中,我们可能更多的时间不是在做算法的开发,而是对需求的定义和数据的治理。所以,如何更好的结合现实业务,让数据真正产生价值成了 个更有意义的话题。 数据科学项目的...
  • 数据科学导论期末试题

    千次阅读 2018-11-08 16:41:26
    上午刚考完数据科学导论,这里回忆下题目。也算给下届学弟学妹一个参考吧。 中南的数据科学导论考试形式是开卷,然而好多题目是找不到的。。 总共5道选择(10分),6道大题(90分)。 一,选择 数列 0, 3, 2, 5 ...
  • JetBrains 推出全新数据科学 IDE——DataSpell

    千次阅读 多人点赞 2021-09-09 16:49:34
    知名开发商 JetBrains 正在为数据科学家测试自己的 IDE,这可能被视为对 Visual Studio Code 及其 Python 扩展这两个超级流行组合的挑战。 名为 JetBrains DataSpell 的新产品刚刚从一个私人的 Early Access ...
  • 数据科学很难成为没有数据的科学。 因此重要的是,我们通过了解我们的数据是如何生成的,来启动任何数据分析。 在本章中,我们将讨论数据来源。 虽然术语“数据来源”通常指的是数据的整个历史,以及它随时间变化的...
  • 数据科学研究的现状与趋势全解

    千次阅读 2019-11-27 17:29:10
    首先,本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系;其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的...
  • 2 工具:数据挖掘,数据科学和可视化软件 3 教科书 4 教育:网络研讨会,课程,证书和学位 5 数据 6 比赛 7 互动:会议,团体和社交网络 more 前言 最近一直一再学习数据挖掘的相关知识,这是一篇国外的文章,...
  • 数据分析师,BI开发人员,数据科学家和数据工程师的角色分别是什么?
  • 本节是《Python 数据科学手册》(Python Data Science Handbook)的摘录。 译者:飞龙 协议:CC BY-NC-SA 4.0 数据驱动的科学和有效计算需要了解数据的存储和操作方式。 本节概述了如何在 Python 语言本身中处理...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 575,241
精华内容 230,096
关键字:

数据科学