精华内容
下载资源
问答
  • 2018清华-伯克利深圳学院数据科学方向笔试题,此题为考研复试的题目。夏令营或者推免考试的难度参见此套题目。
  • 2013年,Warald写文章介绍过数据科学做什么?需要什么核心技能? http://www.1point3acres.com/what-is-data-science-analytics/ 2015年,我又谈了如何成为全栈数据科学家?如何选择公司团队来培养自身的能力? ...

    2013年,Warald写文章介绍过数据科学做什么?需要什么核心技能?

    http://www.1point3acres.com/what-is-data-science-analytics/

    2015年,我又谈了如何成为全栈数据科学家?如何选择公司团队来培养自身的能力?

    http://www.1point3acres.com/data-scientist-how-to-select-teams

    根据Warald了解的信息,数据科学经过这些年的迅速发展,已经分化成三类工作职位。今后几年,这种划分应该会更明显。

    1

    数据科学的三个职业方向

    1. 机器学习工程师 Machine Learning Engineer

    代表了技术含量较高的方向,工作内容主要是开发机器学习系统和用这些系统解决实际问题。一般需要ship production code,做出来的是数据产品。

    1. 数据分析员 Data Analyst

    工作内容俗称analytics (product analytics or business analytics),从数据中提取insight,估计投资回报比,为产品方向提建议,所用工具一般较基础,比如写SQL query取数据、用R/Python做简单的分析、用Tableau/Excel作图比较常见,能自己开发Dashboard算是analyst里面技术强的;工作需要产生各种形式的报告;在统计层次上,懂基本t-test和线性回归即可。

    1. 数据科学家 Data Scientist

    很多人说,我想做数据科学家,我想做机器学习,而这类职位就是大家想象中的那种。

    此类职位工作内容以高级建模为主,会针对复杂的问题来设计技术方案,比如Uber叫车的ETA、各种定价系统、Airbnb和金融行业的Fraud Detection、Amazon物流管理,FB/Linkedin的社交网络或者ebay/Airbnb/Uber这样供需双方Marketplace市场规模的实验。这些例子,听上去就不是写SQL能解决的,也不是会写代码就能做出来的,都需要比较深的领域知识。

    2

    三个职业方向的对比

    从工资收入高低来看:

    1和3都很高,2要低一些,尤其是非IT行业,工资明显低很多,工作地点如果也不是热门地区的话,可能只有1和3的一半。

    从工作机会多少来看:

    近期内对1的需求很高,今后几年内也会保持;2散布在各个行业,加起来也不少;3其实是少数派,职位很少,往往只有大公司才需要,中小型公司可能不需要,即使需要的话,有少数几个人也就够了。

    从读什么专业、拿什么学位角度来看:

    1包含“会一些ML的软件工程师”和“会写生产代码的机器学习专家”两种,也就是说,侧重点会有差异,但是机器学习和软件开发技能都需要。有EE或者CS博士学位最佳,统计等计量学科博士,如果辅修了CS master,也合适。

    如果只有EE/CS硕士学位也可以找机器学习工程师职位,但是硕士生们需要额外自学很多机器学习知识才能胜任,只靠在学校里简单上一两门课,可能不够。此外,找工作的时候,也需要一些运气成分才能找到合适的岗位。

    2一般是统计、数据科学、商务分析、工业工程等专业的硕士担任。

    3一般是统计、运筹、经济、工业工程、EE、CS等专业的博士担任,需要某领域的深刻理解。

    3

    如何在三个职业方向之间转换

    如果你做的是1,考虑到工资收入高,能接触到技术核心(比如LinkedIn是如何给大家推荐工作的),你很可能不会主动考虑换岗位,当然,如果有机会往3靠近,做点新东西,或者处理更上层、更有全局观的问题,很多人也会考虑。

    可能 有人会问,硕士生们,在2类岗位工作几年以后,是否可以从事3?这个要看具体情况,但是整体难度非常大。有一个道理相信很多人都明白:基础工作做1000遍,不代表你能从事高级工作,典型的例子是用天天写SQL产生report,写上3年,不代表你能做建模。此外,很多公司看到你的最高学位是硕士,很可能不会考虑你,不给你机会。

    3类工作也并非完美,最大的问题在前面说了,工业界职位少,换句话说,你跳槽可能没有几个选择;当然,公司要招有经验的人,合适的candidate也少。如果要往1转,最大的障碍是编程能力如何,能否写production code,如果本身就是EECS出身,那会很容易。

    各位,你对哪类职位感兴趣?有啥没问题咩?

    转自 Warald_一亩三分地

    展开全文
  • 未来三到五年,数据科学家的职业发展前景如何?他们还有哪些选择呢? 在 Reddit 上,一位熟悉统计、编程、分析、工程等多项技能,且主要关注产品的数据领域从业者提出了一个让他非常烦恼的问题:每个公司似乎都更想...

    未来三到五年,数据科学家的职业发展前景如何?他们还有哪些选择呢?

    在 Reddit 上,一位熟悉统计、编程、分析、工程等多项技能,且主要关注产品的数据领域从业者提出了一个让他非常烦恼的问题:每个公司似乎都更想要一位精通特定领域的专家,比如 ML、NLP、CV 专家等,但是对于 数据科学家 这个岗位的定义又不是特别明朗,这对于一个什么都懂一些,但没有特别精通的领域的通才来说好像很不利。未来三到五年, 数据科学 家的职业发展前景如何?他们还有哪些选择呢?

    这个话题也是大多数人在进入数据领域之前都会问的一个非常重要的问题。随着自动化机器学习工具的迅速普及,企业在几年内还会需要数据科学家吗?这个问题在 Reddit 上引发了网友们的热烈讨论,收集了数据科学领域中不同人士的多方观点,其中有一些很好的职业建议,你千万别错过!

    楼主的问题
    我是一个以产品为主要关注点的多面手,擅长很多事情(统计、编程、分析、工程和搞定各种事情),但没有专长。

    我最近正着手找新工作,却发现求职市场看起来十分残酷。每个公司似乎都更想要一位精通特定领域的专家,比如 ML、NLP、CV 专家等,但是对于数据科学家这个岗位的定义又不是特别明朗,他们对一个什么都懂一点,没有特别精通的领域的通才好像并不重视。这说明了什么?是不是大多数公司已经收获了成果,现在正在寻求通过预测模型获得更多收益;或者说他们自己也不知道到底想要什么?

    对于以上问题,网友们在 Reddit 上进行了热烈的讨论,更有人基于自己的亲身经历提出建议。

    DS、管理岗、工程师?选适合自己的
    回复 1:据我观察,你可以选择数据科学家 / 技术团队领导岗位、产品经理(与你的产品背景直接相关)、项目管理、CTO、架构师、专家(比如咨询公司的职位)等岗位,这取决于你的背景和专业能力。

    回复楼上: 很有趣的建议,尤其是产品经理—我会认真考虑这个建议,我所在的公司也有这样的机会。唯一的问题是领域不吸引人,这对 DS 来说很重要,对 PM 更重要。

    回复 2: 你的选择很多!你现在的岗位跨了很多领域,接下来你对哪个领域感兴趣就可以在哪一部分投入更多的精力。

    我建议你选择 3 条道路:

    继续深入数据科学家岗位

    转工程师

    转管理岗

    然而,关键的一点是,你需要塑造自己的角色,这是因为大家对数据科学家并没有明确的定义,而即使定义明确,通常也要求这个岗位的人是个多面手,或者至少成为公司多个部门之间的接口。

    以下是每条道路中你可以选择的路径:

    继续深入数据科学家岗位

    组长

    高级数据科学家

    首席数据科学家

    CTO

    VP 工程师

    普通数据科学家

    统计学家(包含很多不同资历级别)

    技术人员经理

    架构师

    研究员(不常见)

    转工程师

    数据工程师

    软件工程师,机器学习

    软件工程师,后端或全栈(前端不常见)

    工程经理(通常情况下,风险团队或依靠 DS 的其他工程团队是个更好的选择)

    硬件工程师(设计 TPU 芯片等,当然比其它选择更罕见)

    VP 工程师

    CTO

    开源贡献者或作者

    “商业”角色

    非技术人员经理

    产品经理

    设计师(罕见,但不是没有)

    创业

    CEO

    销售

    (作为一名优秀的 DS,你可能需要学习如何呈现你的想法,并说服别人采取行动的过程,这是一项非常重要的工作)

    技术传播者

    创业公司顾问

    顾问(不要低估这份工作的难度,如果你想成为一名 DS 顾问的话)

    非营利人士(要求很多,一影响很大,因为非营利部门在收集和使用数据方面不如营利部门)

    VC(合作伙伴、风险投资公司或其投资公司的技术顾问、资源等)

    成功的数据科学家首先会把自己包装成行业专家
    回复 3: 通常来说,我见到的最成功的数据科学家首先是把自己作为行业专家来包装,其次才是数据科学专家,例如“供应链、数据科学”。他们会更多地强调在商业环境下完成任务,而不是技术。

    回复楼上: 很棒的建议,谢谢。在这种情况下,我未来的职业规划是应该成为技术专家还是领域专家呢?

    回复楼主: 这取决于你的职业理想和你真正热爱的是什么,在自动化 / 咨询行业(我所在的行业),走两个方向的人都有。

    有些人继续做内部顾问 / 主题专家。这些是依靠特定领域(技术、统计、零售库存管理、工程子类型等)生存的人。

    其他人则喜欢成为多面手,对业务特定部分(例如供应链)的关注度较低,并充分利用他们对董事类型角色领域和工具广泛了解的优势。有些人甚至创办了自己的公司。

    在这两种极端之间还有很多道路可供选择。这很大程度上取决于你处于职业生涯的哪个阶段,以及工作的哪些特点会吸引你。

    回复 4:我最近也在找工作,但外面的世界很残酷。我会选择偏重编程的工作而不是统计。

    楼主回复: 有具体的建议吗?为什么我不应该选择统计专家这个方向呢?

    回复楼主: 如果你对编程感兴趣的话,偏重编程的工作岗位会更安全(不容易失业)。当然如果你有过硬的博士或硕士经验,你也可以尝试竞争统计专家的职位。我个人认为,现在被称作“数据科学”的工作中至少有 80% 未来会转变为工程类或后端编程的工作。

    回复楼上: 真的假的?!我猜有很多人在政府从事应用统计相关的工作。我在一次会议上认识了一个在政府税务部门工作的应用统计员,他所在的团队有 20 个人,做的事情是使用 R 创建模型找出税收欺诈行为,而他所在的办公楼里还有其他十多个团队在做同样的事情!

    回复楼主: 那是因为数据科学家这个词的定义太过宽泛。大多数这个岗位的工作内容包括很多 SQL 查询、数据清理等诸如此类的琐碎事务。最安全且薪水丰厚的是机器学习工程相关的数据科学家,但这个岗位要求有非常过硬的技术背景。

    回复楼上: 即使这类工作也并不安全。

    回复楼主: 熟练掌握数据流水线、数据挖掘、存储和检索才是王道,有了作为数据科学家的经验,你将会很好地了解数据怎样呈现给分析师或数据科学家,或者自己,这样以后才会有更多的选择。如果两者都擅长的话,将会助你的事业一臂之力。

    回复 4: 以 Facebook 为例,这家公司为员工设计了两条职业道路:个人贡献者(IC)或管理岗。我所在的公司和 Facebook 相似但有所不同,这里有很多人同时是 VP 兼 IC。我个人是从数据科学家转到管理岗位的。我仍然会做一些手头的技术性工作,但更多的时间是在协调、指导以及管理人事。

    我认为你首先要问自己是想要的是做技术性的工作,还是更想走战略、管理型的路线(或两者兼而有之)。

    优秀的数据科学家应该多项技能傍身
    回复 5: 数据科学正在变得越来越商业化、自动化,并可供程序员使用。我得出一个结论,成为一名优秀的数据科学家要拥有一个“X”factor,即特定的技能集合(如 NLP、ML、 大数据 架构),领域 / 行业专长或与其他技能组合(社交、演讲、谈判、全堆栈 web 编程…)。

    回复 6: 我有 5 年数据科学工作经验,也面临着相似的困境,我想要在一家创业公司创建一支数据科学团队,专心研究数据,但已经放弃寻找一份结合建模 + 战略 + 编程的工作。

    回复 7: 同样作为一个多面手,我建议首先应该考虑在哪家公司工作而不是岗位,在任何岗位上尽力做好自己的工作就好。

    未来数据科学家会被自动化工具取代吗?
    AI 前线曾经看到过一篇关于数据科学家职业发展的文章,作者认为随着数据科学的发展,目前数据科学家的许多工作将被自动化的工具取代,而数据科学家这个职业也将不再存在。实际上,虽然自动化工具可以帮助数据科学家做的事情越来越多,比如 API 在预测方面已经能够比拟传统的分析技术了,但目前来看,数据科学家仍然是供不应求的。自动化工具能做的事情毕竟有限,当然更重要的是,作为数据科学家,也需要不断开发和学习新的自动化工具。

    对于数据科学家来说,职业生涯中的选择和所有工种一样重要,就像 Reddit 网友大多数认同的那样:走向技术岗或是管理岗最终要取决于自己个人的喜好和对工作的热情。

    希望我们整理的这篇文章对于刚刚进入数据科学行业、在职业规划上存在困惑,或从业多年正在苦恼于职业生涯的下一步怎么走的朋友能够提供一些帮助。欢迎你与我们分享“过来人”经验,如果你有类似的苦恼也可以给我们留言,和大家一起探讨。

    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    精英数据科学家应该具备这些能力和特质
    http://www.duozhishidai.com/article-14280-1.html
    数据科学家的工作性质是什么,主要面临什么挑战 ?
    http://www.duozhishidai.com/article-13986-1.html
    数据科学是什么,如何成为一名数据科学家?
    http://www.duozhishidai.com/article-8521-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 数据科学研究的现状与趋势

    千次阅读 2018-03-05 00:00:00
    来源:数据科学DataScience...第2节提出现阶段数据科学研究的特点——本质问题的系统研究较少,反而周边问题的讨论较多,并分别分析了专业数据科学、专业中数据科学以及大数据生态系统中的相对热门话题。第3节探讨数据

    来源:数据科学DataScience


    大数据时代的到来催生了一门新的学科——数据科学。


    本文第1节探讨数据科学的内涵、发展简史、学科地位和知识体系等四个基本问题,并提出了数据科学的两个基本类型——专业数据科学和专业中的数据科学。


    第2节提出现阶段数据科学研究的特点——本质问题的系统研究较少,反而周边问题的讨论较多,并分别分析了专业数据科学、专业中数据科学以及大数据生态系统中的相对热门话题。


    第3节探讨数据科学研究中的10个争议——思维模式的转变(知识范式还是数据范式)、对数据的认识视角(主动属性还是被动属性)、对智能的认识侧重点(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)和人才培养(数据工程师还是数据科学家),并分别提出了研究挑战。


    第4节分析了数据科学研究的10个发展趋势——预测模型及相关分析的重视、模型集成及元分析的兴起、数据在先,模式在后或无模式的出现、数据一致性及现实主义的回归、多副本技术及靠近数据原则的应用、多样化技术及一体化应用并存、简单计算及实用主义占据主导地位、数据产品开发及数据科学的嵌入式应用、专家余及公众数据科学的兴起以及数据科学家与人才培养的探讨。最后总结全文,并对数据科学研究者提出了几点建议。


    数据科学:大数据背后的科学



    “数据科学”与“大数据”是两个既有区别又有联系的术语,可以将数据科学理解为大数据时代一门新科学,即以揭示数据时代,尤其是大数据时代新的挑战、机会、思维和模式为研究目的,由大数据时代新出现的理论、方法、模型、技术、平台、工具、应用和最佳实践组成的一整套知识体系。


    1.  数据科学的内涵及兴起


    1974年,著名计算机科学家、图灵奖获得者Peter Naur在其著作《计算机方法的简明调研(Concise Survey of Computer Methods)》的前言中首次明确提出了数据科学(Data Science)的概念,“数据科学是一门基于数据处理的科学”,并提到了数据科学与数据学(Datalogy)的区别——前者是解决数据(问题)的科学(the science of dealing with data),而后者侧重于数据处理及其在教育领域中的应用(the science of data and of data processes and its place in education)。


    Peter Naur首次明确提出数据科学的概念之后,数据科学研究经历了一段漫长的沉默期。


    直到2001年,当时在贝尔实验室工作的William S. Cleveland在学术期刊International Statistical Review上发表题为《数据科学——拓展统计学技术领域的行动计划(Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics》的论文,主张数据科学是统计学的一个重要研究方向,数据科学再度受到统计学领域的关注。


    之后,2013年,Mattmann C A和 Dhar V在《自然(Nature)》和《美国计算机学会通讯(Communications of the ACM)》 上分别发表题为《计算——数据科学的愿景(Computing: A vision for data science)》和《数据科学与预测(Data science and prediction)》论文,从计算机科学与技术视角讨论数据科学的内涵,使数据科学纳入计算机科学与技术专业的研究范畴。


    Gartner的调研及其新技术成长曲线(Gartner's 2014 Hype Cycle for Emerging Technologies)表示,数据科学的发展于2014年7月已经接近创新与膨胀期的末端,将在2~5年之内开始应用于生产高地期(plateau of Productivity)。


    同时,Gartner的另一项研究揭示了数据科学本身的成长曲线(Hype Cycle for Data Science),如图1所示。从图1可以看出,数据科学的各组成部分的成熟度不同:R的成熟度最高,已广泛应用于生产活动;其次是模拟与仿真、集成学习、视频与图像分析、文本分析等,正在趋于成熟,即将投入实际应用;基于Hadoop的数据发现可能要消失;语音分析、模型管理、自然语言问答等已经渡过了炒作期,正在走向实际应用;公众数据科学、模型工厂、算法市场(经济)、规范分析等正处于高速发展之中。


    图1  数据科学的成长曲线(2016)


    2.  数据科学的学科地位


    2010年,Drew Conway 提出了第一张揭示数据科学的学科地位的维恩图——《数据科学维恩图(The Data Science Venn Diagram)》(图2),首次明确探讨了数据科学的学科定位问题。


    在他看来,数据科学处于统计学、机器学习和领域知识的交叉之处。后来,其他学者在此基础上提出了诸多修正或改进版本,如图3是Jerry Overton于2016年给出的数据科学维恩图。但是,后续版本对数据科学的贡献和影响远不及Drew Convey首次提出的数据科学维恩图。


    图2  Drew   Conway的数据科学韦恩图(2010)

    图3  Jerry   Overton的数据科学韦恩图(2016)


    从Drew Conway的《数据科学维恩图》的中心部分可看出,数据科学位于统计学、机器学和某一领域知识的交叉之处,具备较为显著的交叉型学科的特点,即数据科学是一门以统计学、机器学习和领域知识为理论基础的新兴学科。


    同时,从该图的外围可看出,数据科学家需要具备数学与统计学知识、领域实战和黑客精神,说明数据科学不仅需要理论知识和实践经验,而且还涉及黑客精神,即数据科学具有三个基本要素:理论(数学与统计学)、实践(领域实务)和精神(黑客精神)。


    3. 数据科学的知识体系


    从知识体系看,数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发,如图4所示。


    图4  数据科学的知识体系


    • 基础理论:主要包括数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。


    • 数据加工(Data Wrangling 或Data Munging):数据科学中关注的新问题之一。为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的精准度,数据科学项目需要对原始数据进行一定的加工处理工作——数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据归约和数据标注等。


    • 数据计算:在数据科学中,计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。


    • 数据管理:在完成“数据加工”和“数据计算”之后,还需要对数据进行管理与维护,以便进行(再次进行)“数据分析”以及数据的再利用和长久存储。


    • 数据分析:数据科学中采用的数据分析方法具有较为明显的专业性,通常以开源工具为主,与传统数据分析有着较为显著的差异。


    • 数据产品开发:“数据产品”在数据科学中具有特殊的含义——基于数据开发的产品的统称。数据产品开发是数据科学的主要研究使命之一,也是数据科学区别于其他科学的重要区别。


    4. 专业数据科学及专业中的数据科学


    “专业中的数据科学”是指依存于某一专业领域中的大数据研究,其特点是与所属专业的耦合度较高,难以直接移植到另一个专业领域,如数据新闻(Data Journalism)、材料数据科学(Materials Data Science)、大数据金融(Big Data Finance)、大数据社会、大数据伦理(Big Data Ethics)和大数据教育(Big Data Education)等。


    专业数据科学与专业中的数据科学的联系如下:专业数据科学聚集了不同专业中的数据科学中的共性理念、理论、方法、术语与工具;相对于专业中的数据科学,专业数据科学更具有共性和可移植性,并为不同专业中的数据科学研究奠定了理论基础;专业中的数据科学代表的是不同专业中对数据科学的差异性认识和区别化应用。


    数据科学的研究热点    



    目前,数据科学的研究特点是对本质问题的系统研究少,然而对周边问题的讨论较多,可从以下四个方面进行分类分析。


    1. 周边问题仍为研究热点


    从文献分布看,数据科学的研究主题可以分为两类:核心问题和周边问题。前者代表的是数据科学的基础理论——数据科学特有的理念、理论、方法、技术、工具、应用及代表性实践;后者代表的是数据科学的底层理论(理论基础,如统计学、机器学习等)、上层应用(应用理论,如数据新闻、大数据金融、大数据社会、大数据生态系统等)以及相关研究(如云计算、物联网、移动计算等)。


    文献数量和研究深度表明,现阶段的数据科学研究热点仍聚焦在周边问题的讨论之上,而对数据科学的核心问题的研究远远不够。数据科学的周边问题的研究主要集中在:


    • 大数据挑战及数据科学的必要性。在大数据时代,挑战和机会并存:挑战不仅来自于数据量(Volume),而且还涉及其多个V特征,如种类多(Variety)、速度要求高(Velocity)和价值密度低(Value)。


    • 数据科学对统计学和计算机科学的继承与创新。一方面数据科学作为新的研究方向,进一步拓展了统计学和计算机科学与技术的研究范畴;另一方面,数据科学不仅继承了统计学和计算机科学等基础理论,而且对其进行了创新与发展,逐渐成为一门独立学科。


    • 新技术在数据科学中的重要地位。云计算、物联网、移动计算等新技术的兴起拓展了人的数据获取、存储和计算能力,促使大数据时代的到来,成为数据学科诞生的必要条件。同时,数据科学中需要重点引入Spark、Hadoop、NoSQL等新兴技术,从而更好地面对大数据挑战。


    • 数据科学对特定领域的影响。大数据及其背后的数据科学在特定领域的应用是近几年的热门话题,尤其在生命科学、医疗保健、政府治理、教学教育和业务管理等领域的广泛应用,出现了量化自我、数据新闻、大数据分析学等新的研究课题。


    • 数据科学领域的人才培养。与传统科学领域不同的是,数据科学领域人才培养目的是培养学生的“以数据为中心的思考能力”。目前,相关研究主要涉及四个主题:数据科学课程的建设、相关课程的教学改革、跨学科型人才培养以及女性数据科学家的培养。


    2. 专业数据科学研究中相对热门话题


    从研究视角看,数据科学的研究可以分为两类:专业数据科学和专业中的数据科学。前者代表的是将数据科学当作一门独立于传统科学的新兴学科来研究,强调的是其学科基础性:


    后者代表的是将数据科学当作传统学科的新研究方向和思维模式来研究,强调的是数据科学的学科交叉性。从目前的研究现状看,专业数据科学研究的热热门话题有:


    • DIKW模型。DIKW模型刻画的是人类对数据的认识程度的转变过程。通常认为,数据科学的研究任务是将数据转换成信息(Information)、知识(Knowledge)或(和)智慧(Wisdom)。


    • 数据分析学(Data Analytics)。大数据分析研究正在成为一门相对成熟的研究方向——数据分析学。需要注意的是,数据分析(Data Analysis)与数据分析学是两个不同的概念:前者强调的是数据分析活动本身,而后者更加强调的是数据分析中的方法、技术和工具。目前,大数据分析研究中的热门话题有两个:一是大数据分析学,尤其是大数据分析算法和工具的开发;另一个面向特定领域的大数据分析,如面向物流与供应链管理、网络安全以及医疗健康的大数据分析学。论文给出了数据分析的主要类型及常见错误。


    • 数据化(Datafication)。数据化是将客观世界以及业务活动以数据的形式计量和记录,形成大数据,以便进行后续的开发利用。除了物联网和传感器等公认的研究课题,量化自我(Quantified Self)也在成为数据化的热门话题。


    • 数据治理(Data Governance)。数据治理是指数据管理的管理。目前,相关研究主要集中在顶层设计、实现方法、参考框架以及如何保证数据管理的可持续性。此外,数据治理作为数据能力成熟度评估模型(Data Maturity Model)的关键过程域,重点关注的是如何通过数据治理提升组织数据管理能力的问题。DMM中定义的关键过程域“数据治理”包括3个关键过程:治理管理(Governance Management)、业务术语表(Business Glossary)和元数据管理(Metadata Management)。


    • 数据质量。传统数据管理主要从数据内容视角关注质量问题,强调的是数据是否为干净数据(Clean Data)/脏数据(Dirty Data);数据科学主要从数据形态视角关注质量问题,重视的是数据是否为整齐数据(Tidy Data)/混乱数据(Messy Data)。所谓的整齐数据是指数据的形态可以直接支持算法和数据处理的要求。


    除了上述问题之外,大数据的安全、大数据环境下的个人隐私保护、数据科学的项目管理及团队建设、公众数据科学(Citizen Data Science)等是目前在专业数据科学研究中讨论较多的问题。


    3. 专业中的数据科学研究的相对热门话题


    相对于专业数据科学,专业中的数据科学研究具有差异性和隐蔽性。差异性主要表现在各学科领域对数据科学的关注点和视角不同;隐蔽性是指专业中的数据科学研究往往间接地吸收和借鉴数据科学或类似于数据科学的思想,而并不明确采用或直接运用数据科学的规范术语。从目前的研究看,以下几个专业中的数据科学研究尤为活跃:


    • 数据新闻(Data Journalism):新闻学领域的新研究方向之一,主要研究的是如何将大数据和数据科学的理念引入新闻领域,实现数据驱动型新闻(Data-driven Journalism)。


    • 工业大数据:主要研究如何将大数据应用于工业制造领域,进而实现工业制造的创新。比较有代表性的是德国工业4.0(Industrie 4.0)、美国工业互联网(Industrial internet)和中国制造2025(Made in China)。


    • 消费大数据:与工业大数据不同的是,消费大数据更加关注的是产品生命周期的末端,即如何将已生产出的产品推销给更多的用户,主要包括精准营销、用户画像(User Profiling)以及广告推送。


    • 健康大数据:主要关注大数据在健康与医疗领域的广泛应用,包括生命日志(Life Logging)、医疗诊断、药物开发、卫生保健等具体领域的应用。


    4. 大数据生态系统研究中相对热门话题


    • 数据科学生态系统(Big Data Ecosystem)是指包括基础设施、支撑技术、工具与平台、项目管理以及其他外部影响因素在内的各种组成要素构成的完整系统。例如,大数据全景图(Big Data Landscape)较为全面地展示了大数据生态系统中的主要机构及产品。现有相关研究主要从组成要素及其相互关系两个方面进行。就目前而言,相关研究中的热门话题集中在:


    • 基础设施:主要关注云计算、物联网、移动计算、社交媒体在内的基础设施对数据科学的影响以及数据科学中如何充分利用上述基础设施。


    • 支撑技术:建立在基础设施上的关键技术,现有研究主要讨论机器学习、统计学、批处理、流计算、图计算、交互计算、NoSQL、NewSQL和关系云等支撑技术在数据科学的应用;


    • 工具与平台:支撑技术的具体实现,目前的主要研究热点集中在R、Python、Hadoop、Spark、MongoDB、HBase、Memcached、MongoDB、CouchDB和Redis等工具与平台在数据科学中的应用;


    • 项目管理:涉及数据科学项目的范围、时间、成本、质量、风险、人力资源、沟通、采购及系统管理等9个方面的管理;


    数据科学研究的争议与挑战



    在不同的学科领域,大数据时代的科学研究所面临问题、挑战和关注点不同。从计算机科学视角看,新的数据处理需求已经超出了现有的存储与计算能力;


    从统计学视角看,大数据挑战在于样本的规模接近总体时,如何直接在总体上进行统计分析;从机器学习角度看,训练样本集接近测试样本集时,如何用简单模型及模型集成方法实现较高的智能水平;


    但是,从数据科学视角看,其研究中的常见争议及背后的研究挑战可以归纳为10个方面:


    1. 思维模式——知识范式还是数据范式


    在传统科学研究中,由于数据的获得、存储和计算能力所限,人们往往采取的是知识范式(“数据→知识→问题”的范式),从数据,尤其是样本数据中提炼出知识之后,用知识去解决现实问题。


    然而,近几年兴起的机器翻译方法改变了传统机器翻译的思维模式,采取的是“数据范式”——直接从历史跨语言语料库中快速洞见所需结果。上世纪五十年以来的IBM 机器翻译的缓慢发展以及2000以后的Google机器翻译的迅速兴起也反映了这种思维模式的变革。


    与传统认识中的“知识就是力量”类似,在大数据时代,数据也成为一种重要力量。如何组织、挖掘和利用数据成为现代组织的核心竞争力。目前,思维模式变革的主要挑战在于如何完成以数据为中心的设计、数据驱动型决策和数据密集型应用。


    2. 数据的认识——主动属性还是被动属性


    在传统科学研究中,数据一直被当作是被动的东西,人们主要从被动属性方面去对待数据。以关系数据库为例,人们先定义关系模式,然后将数据按照关系模式的要求进行强制转换后放入数据库中,完成数据挖掘和分析任务。


    因此,如何正确认识数据及如何充分发挥数据的主动属性成为数据科学的重要研究任务。目前,相关研究的主要挑战在于如何实现数据洞察、以数据为中心的设计、敏捷软件开发、数据驱动型决策以及智慧类应用研发。


    3. 智能的认识——更好的算法还是更多的数据


    在传统学术研究中,智能主要来自于算法,尤其是复杂的算法。算法的复杂度随着智能水平得到提升。例如,KNN算法是机器学习中常用的分类算法,其算法思想非常简单。人们根据不同应用场景提出多种改进或演化方案,虽然智能水平有所提高,但随之而来的问题是算法复杂度的提升。


    但是,数据范式表明,数据也可以直接用于解决问题,引发了一场关于“更多数据还是更好模型(More data or Better Model debate)”的讨论,经过这场大讨论,人们得出了相对一致的结论——“更多数据+简单算法=最好的模型(more data+ simple Algorithem= the best model)”。


    因此,如何设计出简单高效的算法以及算法的集成应用成为数据科学的重要挑战。目前,关于智能的实现方式的挑战在于算法设计、算法集成、维度灾难和深度学习。


    4. 研发瓶颈——数据密集型还是计算密集型


    传统的软件开发与算法设计的重点是解决计算密集型的问题,计算是研究难点和瓶颈。但是,随着大规模分布式计算,尤其是云计算的普及,计算不再是人们需要解决的首要瓶颈。


    目前,数据密集型应用的主要挑战在于副本数据技术、物化视图、计算的本地化、数据模型的多样化和数据一致性保障。


    5. 数据准备——数据预处理还是数据加工


    在传统数据研究中,数据准备主要强调的是将复杂数据转换为简单数据,对脏数据进行清洗处理后得到干净数据,从而防止“垃圾进垃圾出”现象的出现,主要涉及重复数据的过滤、错误数据的识别以及缺失数据的处理。可见,数据预处理主要关注的是数据的质量维度的问题。


    数据加工概念的提出意味着人们对数据复杂性的认识发生了重要的变革,即开始接受数据的复杂性特征,认为复杂性是数据本身的固有特征。与此同时,数据准备的关注点转向另一个重要问题,即如何发挥人的增值作用。目前,数据加工的研究主要挑战集中在:


    • 数据打磨或数据改写理念的提出:如何在数据科学项目中充分发挥数据科学家的作用,进而实现数据处理活动的增值效果;

    • 数据打磨或数据改写技术的实现:基于Python、R以及大数据技术实现数据加工的理念与方法;

    • 数据柔术:如何有艺术性地将数据转换为产品;

    • 整齐化处理:将数据转换为大数据算法和大数据技术能够直接处理的形态。


    6. 服务质量——精准度还是用户体验


    查全率和查准率是传统数据研究中评价服务质量的两个核心指标。但是,当总体为未知、数据量迅速增长、数据种类不断变化和数据处理速度要求高时,查全率和查准率的追求成为不可能。


    因此,在大数据环境下,更加重视的是用户体验,而不是查全率和查准率。在用户体验的评价中,响应速度是最为重要指标之一。


    Aberdeen Group的调查发现“页面的显示速度每延迟1秒,网站访问量就会降低11%,从而导致营业额减少7%,顾客满意度下降16%”Google发现“响应时间每延迟0.5秒,查询数将会减少20%”;Amazon发现“响应时间延迟0.1秒,营业额下降1%。


    目前,用户体验研究的主要挑战在于如何确保较快的响应速度、设计人机交互、实现服务虚拟化以及提供按需服务。


    7. 数据分析——解释性分析还是预测性分析


    理论完美主义者认为只有掌握了因果关系才能正确认识和有效利用客观现象。传统数据分析往往是理论完美主义的指导下完成,试图通过对历史数据进行深度分析之后,达到深刻理解自我或解释客观现象的目的,侧重的是因果分析,即以解释型分析为主。


    在大数据环境下,数据分析的重点从因果分析转向相关分析,更加重视的是事物之间的相关关系。


    因此,数据科学的一个重要特点是预测性分析和解释性分析的分离。预测性分析主要由数据科学家完成,一般不需要领域知识;解释性分析则发生在预测性分析之后,数据科学家将预测性分析中的洞察结果转交给领域专家,由领域专家负责完成解释性分析。


    大数据分析的主要挑战源自于数据的复杂性、噪声数据的分析、数据的依赖度。提出面向大数据分析的新方法、技术与工具,尤其是大数据分析方法的动态演化、实时计算和弹性计算成为相关研究中亟待解决的问题。


    8. 算法评价——复杂度还是可扩展性


    复杂度,尤其是时间复杂度和空间复杂度,是传统算法的两个重要评价指标 ,分别代表的是算法的运行所需的时间成本和内存成本。但是,在大数据环境下,算法设计的一个重要特点是上层需求和底层数据处于动态变化之中,因此,算法应支持按需服务和数据驱动型应用。


    例如,谷歌于2008年推出预测流感疫情工具——谷歌流感趋势(Google Flu Trends,GFT),及时准确预测了当时H1N1在全美范围的传播,但是,2013年1月的估计比实际数据高两倍,主要原因之一是缺乏算法动态性(Algorithm Dynamics)和用户使用行为习惯的变化。


    在大数据时代,算法的可扩展性主要代表的是算法的可伸缩能力。目前,相关研究的主要挑战在于低维度算法在高维数据中的应用、维度灾难、数据规约以及数据密集型应用。


    9. 研究范式——第三范式还是第四范式


    图灵奖获得者Jim Gray 曾提出,人类科学研究活动已经历过三种不同范式的演变过程(原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”),目前正在从“计算科学范式”转向“数据密集型科学发现范式(Data-intensive Scientific Discovery)”。


    第四范式的提出反映了人们对世界的固有认识发生了根本性的变化——从二元认识(精神世界/物理世界)转向三元认识(精神世界/数据世界/物理世界),即在原有的“精神世界”和“物理世界”之间出现了一个新的世界——数据世界。因此,科学研究者往往直接面对的是数据世界,通过对数据世界的研究达到认识和改造物理世界的目的。


    10. 人才培养——数据工程师还是数据科学家


    传统科学领域中,数据相关的人才培养的目标定位于数据工程师——从事数据的组织、管理、备份、恢复工作的人才。但是,在大数据时代,数据工程师无法胜任数据科学的研究任务,需要的是一类全新的人才——数据科学家。


    数据科学研究的发展趋势



    在梳理研究热点、争议及挑战的基础上,我们需要进一步分析数据科学研究的发展趋势。从整体上讲,数据科学研究的主要发展趋势可以总结为:


    • “思维模式的多样化和研究范式的变迁”是根本趋势。其中,思维模式的多样化主要体现在数据范式的兴起以及其与传统的知识范式并存;研究范式的变迁是指科学研究范式从“计算科学范式”转向“数据密集型科学发现范式”,进而改变人们对世界的二元认识,相关研究重点将转变为通过数据世界的研究认识和改造物理世界。


    • “专业中的数据科学”是研究热点。大数据时代,各专业领域面临的主要挑战在于如何解决新兴数据与传统知识之间的矛盾,即数据已经变了,但知识没有更新,各学科中的传统知识无法解决大数据带来的新问题。


    • “专业数据科学”是研究难点。“专业中的数据科学”从不同专业视角解读数据科学,存在研究兴趣点和研究发现(如理论、方法、技术、工具和典型实践等)的差异性,甚至可能出现相互重叠与冲突的现象。


    • “数据生态系统的建设”是终极问题。数据学科是一门实践性极强的学科,其研究和应用均不能脱离具体领域。数据科学的研究和应用将会超出技术范畴,还涉及到发展战略、基础设施、人力资源、政策、法律与文化环境等诸多因素。


    1. 预测模型及相关分析的重视


    数据科学的研究责任在于预测模型而不在于解释模型。以预测模型为中心的数据科学更偏向于实用主义,更加关注的是“对未来的预测能力”,而不是“对过去的解释水平”。因此,数据科学的研究更加重视的是“现在能为未来做什么?”,而不是“过去对现在的影响是什么?”


    数据科学中重视预测模型而不是解释模型的另一个现实基础在于“人们往往先发现规律,后发现原因”。从方法论层次看,以发现预测模型为目的的研究往往提倡的是假设演绎(Hypothetico-Deductive)研究范式,先提出研究假设,然后采用试验设计和演绎分析方法论证研究假设成立与否。


    与解释模型不同的是,预测模型更加重视的是模型的简单性,而不是复杂性,主要原因有两个,一是预测模型对计算时间的要求较高,甚至需要进行实时分析,然而简单模型的计算效率往往高于复杂模型;二是经验证明,正如奥卡姆剃刀定律(Occam's razor)所言,在其他条件相同的情况下,就预测而言,简单模型比复杂模型更可靠。


    2. 模型集成及元分析的兴起


    传统数据分析的通用做法是用一个数据模型即可解决一项数据处理任务。在这种以单一模型为基础的数据分析中,为了提升数据处理的信度和效度,需要对模型进行优化和调整,导致数据模型复杂度的增长。也就是说,传统数据分析中的数据模型有两个基本特征:单一性和复杂性。


    3. 数据在先,模式在后或无模式的出现


    传统数据管理,尤其是关系型数据库中采用的是“模式在先、数据在后(Schema First,Data Later)”的建设模式,即先定义模式,然后严格按照模式要求存储和管理数据;当需要调整模式时,不仅需要重定义数据结构,而且还需要修改上层应用程序。然而,在大数据环境下,无法沿用“模式在先、数据在后(Schema First,Data Later)”的建设模式,主要原因有两个:一是数据模式可能为不断变化或根本不存在;二是按照预定模式进行数据的存储和处理时容易导致信息丢失。


    因此,“数据在先,模式在后或无模式(Data First, Schema Later or Never)”成为数据产品设计的主要趋势。以NoSQL为例,采用非常简单的键值数据模型,通过模式在后(Schema Later)或无模式(Schemaless)的方式确保数据管理系统的敏捷性。当然,模式在后或无模式也会带来新问题,如限制数据管理系统的处理能力及加大应用系统的开发难度。


    4. 数据一致性及现实主义的回归


    在传统数据管理中,对数据一致性的要求是接近于完美主义——强一致性,即任何时候从任何地方读出的任何数据均为正确数据。为了保证数据的一致性,在关系数据库中引入了事务、两端封锁协议和两端提交协议等方法或机制。


    因此,NoSQL等新兴数据管理技术从根本上改变了人们对数据一致性的传统认识,主要表现在提出CAP理论和BASE原则等新兴数据管理理念,引入弱一致性、最终一致性等概念,并提供了不同的解决方案,如更新一致性、读写一致性和会话一致性等。可见,在数据科学研究中,数据的一致性出现了多样化趋势,即根据不同应用场景,有针对性地选择具体的一致性及其实现方法。


    在数据一致性的多样化认识的转变反映了们对数据数据管理目标的根本转折——从完美主义回归至现实主义。


    以CAP理论为例,人们对分布式系统的设计目的发生了改变,不再追求强一致性(Consistency)、可用性(Availability)和分区容错性(Partition Tolerance)三个指标的同时最优,反而意识到了三者中的任何两个特征的保证(或争取)可能导致另一个特征的损失(或放弃)。例如,Cassadra和Dynamo 为了争取可用性和分区容错性而放弃了一致性。


    5. 多副本技术及靠近数据原则的应用


    传统关系数据库更加看重的是数据冗余的负面影响——冗余数据导致的数据一致性保障成本较高。与此不同的是,数据科学中更加重视的是冗余数据的积极作用,即冗余数据在负载均衡、灾难恢复和完整性检验中的积极作用。


    同时,在计算和应用系统的部署上,改变传统的“数据靠近计算的原则”,反而开始采取了“计算靠近数据的原则”。例如,在Spark系统提供了操作getPreferredLocations(),支持RDD的本地化计算;在MapReduce中,尽量将Map任务调度至存放副本数据数据的机器上。


    6. 多样化技术及一体化应用并存


    传统关系数据库类产品虽多,但标准化程度较高,如均采用关系模型和SQL语言。但是,新兴的NoSQL数据库代表的不是一种特定技术,而是包括基于不同数据模型和查询接口的多种数据管理技术,如Key-Value、Key-Document和Key-Column和图存储模型等。


    例如,MapReduce、Tez、Storm、Druid等技术的定位相对单一,分别专注于分布式批处理、Map/Reduce过程的拆分与组合、实时处理和面向OLAP的列存储等较为单一功能的实现。当然,Spark、YARN等较为通用性技术的出现也为技术层次上的高度专业化趋势提供了一种补充的解决方案。


    同时,在传统数据计算/管理环境中,不同数据产品的界限是比较清楚的,所依赖的技术也是单一的,要么关系模型,要么层次或网状模型。但是,大数据时代的到来导致不同计算/管理技术的高度融合,出现一些支持多种数据计算/管理技术集成产品,甚至显现出了软硬件一体化或嵌入式应用趋势。


    例如,Oracle大数据解决方案(Big Data Appliance)集成了HDFS、Oracle NoSQL、Cloudera CDH、数据仓库、内存计算和分析型应用。


    可见,在数据科学研究中一体化应用和专业化趋势并存。在产品与服务的实现层次上,一体化趋势越来越显著,一种产品的实现往往涉及多种不同技术的集成应用;在技术本身的实现层面,专业化趋势成为主流,一项新技术专注于解决相对单一问题。


    7.  简单计算及实用主义占据主导地位


    “简单”是数据科学的基本原则之一,代表着采用相对简单的技术来应对复杂的基础数据及不断变化的应用场景。与此不同的是,传统数据管理中采用的技术实现往往较为复杂。


    例如,传统关系数据库技术采用Join运算实现了多表查询等复杂操作。但是,这些复杂操作反而成为了关系数据库在提升数据管理能力的一个重要瓶颈,如Join操作要求被处理数据不能分布在不同节点。为此,NoSQL放弃了Join等复杂处理操作,突出了简单计算较高的效率和效果。


    从复杂计算到简单计算的转变表明人们对数据产品开发的理念从完美主义回归至实用主义。数据科学是一门实践性很强的学科,现阶段其研究主要关注的是实用性,即解决当前社会亟待解决的实际问题,而不是复杂计算的实现。


    8. 数据产品开发及数据科学的嵌入式应用


    作为数据科学的特有研究内容,数据产品开发将成为未来研究重要课题。在数据科学中,所谓的数据产品(Data Products)并不限于“数据形态”的产品,而泛指“能够通过数据来帮助用户实现其某一个(些)目标的产品”。


    可见,数据产品是指在数据科学项目中形成,能够被人、计算机以及其他软硬件系统消费、调用或使用,并满足他们(它们)某种需求的任何产品,包括数据集、文档、知识库、应用系统、硬件系统、服务、洞见、决策及它们的各种组合。


    9. 专家及公众数据科学的兴起


    在传统数据分析中,专家,尤其是领域专家是知识的主要来源之一。例如,本体的建设需要由领域专家完成;专家系统中的知识库建立在专家的知识之上。


    但是,在大数据时代,专家余(ProAm)成为数据处理项目的主要贡献者。与专家不同的是,专家余是指其能力在专家与业务之间的准专家型人群。近年来,众包(包括众创、众筹等)成为大数据时代的重要数据处理模式,其主要参与者均为专家余,而并非是严格意义上的专家或业余人群。


    例如,与传统意义上的专家编写的百科全书不同,Wikipedia是由来自各领域的专家余共同完成的知识库。


    众包的广泛应用为传统知识库建设中的数据量与形式化程度之间的矛盾提供了新的解决方案。在传统知识库建设中,要么形式化程度高,但数据量不够,反之亦然。众包数据处理模式的出现使位于数据链长尾的专家余成为知识的主要贡献者和积极参与者。


    从协同方式看,众包中大规模协同可以分为机器协同、人机协同和人际协同三种表现形式。其中,人机协同是数据科学研究的重要课题。例如,混合智能——人与机器的互补型智能正成为人工智能的新课题。再如,语义Web技术的出现为人机协同提供了一种重要的技术支撑。


    10. 数据科学家与人才培养的探讨


    数据科学项目任务往往是富有挑战性的工作,每一项任务都是独一无二的,对工作人员的要求超出数据工程师的能力范畴,亟待由一类新型人才——数据科学家来承担。从Drew Convey的数据科学维恩图可看出,数据科学具有三个基本要素,即理论(统计学与数学知识)、实践(领域实战)和精神(黑客精神)。


    可见,数据科学与传统科学的人才需求不同,前者不仅要求传统科学中的理论与实践,而且还需要有数据科学家的“精神”素质,即原创性设计、批判性思考和好奇心地提问的能力。


    结论      


    数据科学是一门极其特殊的新兴学科,具有与其他学科不同的新特征,例如思维模式的转变(从数据范式到知识范式的转变)、对数据认识的变化(从数据的被动属性到主动属性的转移)、指导思想的变化(实用主义和现实主义的回归)、以数据产品开发为主要目的(数据成为传统产品的主要创新点)、专业数据科学与专业中的数据科学的差异性以及数据科学的三要素(不仅涉及理论和实践,而且还包括精神素质)。


    因此,数据科学的研究不能简单照搬传统学科的经验,应尊重其特殊使命和属性。为此,我们对数据科学研究者提出如下几点建议:


    • 正确认识数据科学。正确认识数据科学的内涵是有效学习和规范研究数据科学的前提。目前,部分学者误以为“数据科学=统计学+机器学习”,过于强调统计学和机器学习,而忽略了数据科学本身。其实,统计学和机器学习是数据科学的理论基础,而并非其核心内容。


    • 突出数据的主动属性。数据科学的一个重要贡献或价值就在于改变了人们对数据的研究方向,即从被动属性转向主动属性。一直以来,人们习惯性地把数据当做被动或死的东西,关注的是“你能对数据做什么?”,如模式定义,结构化处理和预处理,都试图将复杂数据转换成简单数据。


    • 平衡数据科学的三个要素。与其他课程,尤其是技术类课程不同的是,数据科学既包括理论和实践,更需要精神——原创性设计、批判性思考和好奇性提问的素质。因此,数据科学的学习中不仅要强调理论联系实际,而且还不能忽略对数据科学家精神的培养。积极参与数据科学相关的开源项目和竞赛类项目是兼顾数据科学的三个基本要素的两个重要捷径。


    • 侧重培养信心和兴趣,学会跟踪数据科学的最新动态。一方面,数据科学建立在统计学和机器学习等基础理论之上,学习门槛较高,因此,培育自己对数据科学的学习信心和兴趣尤为重要;另一方面,数据科学仍属于一门快速发展的新兴学科,其理念、理论、方法、技术和工具在不断变化之中,要求我们必须掌握动态跟踪数据科学领域的国际顶级会议、重要学术期刊、主要研究机构、代表性人物和标志性实践的能力。


    • 重视试验设计及假设检验。试验设计是数据科学项目的重要活动之一。数据科学家应根据数据科学项目的研究目的,有创造性地提出研究假设,并设计对应的试验,最终通过这些试验达到假设检验的目的。以华盛顿大学和加州大学伯克利分校的数据科学专业人才培养方案为例,分别开出了课程《应用统计与试验设计(Applied Statistics & Experimental Design)和《试验与因果分析(Experiments and Causality)》,重点培养学生的试验设计和假设检验的能力。


    • 不要忽视因果分析。在大数据时代,很多人误以为“因果分析不再重要了”,并把研究重点仅限在相关分析。相关分析只能用于识别事物之间的关联关系,而无法指导如何优化和干预这种相关关系。因此,当相关关系发生变化或需要人为干预相关关系时,必须进一步研究其因果关系。


    • 以数据产品开发为主要抓手。数据产品开发是学习与研究数据科学的主要抓手之一。需要注意的是,数据产品不限于数据形态的产品,任何用数据来帮助目标用户实现其某一目的的产品都可视为数据产品。


    • 准确定位人才培养目的。数据科学的学习和人才培养的目的是培养数据科学家而不是数据工程师。二者的区别在于,数据工程师负责的是“数据本身的管理”,而数据科学家的主要职责是“基于数据的管理”,包括基于数据的分析、决策、流程定义与再造、产品设计和服务提供等。


    未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


    未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

      如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

    展开全文
  • 数据科学研究的现状与趋势全解

    千次阅读 2019-11-27 17:29:10
    大数据时代的到来催生了一门新的学科——数据科学。首先,本文探讨了数据科学的内涵、发展...接着,探讨了数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是...

    大数据时代的到来催生了一门新的学科——数据科学。首先,本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系;其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题;接着,探讨了数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是被动属性)、对智能的认识(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)、人才培养(数据工程师还是数据科学家)。再次,提出了数据科学研究的10个发展趋势:预测模型及相关分析的重视、模型集成及元分析的兴起、数据在先,模式在后或无模式的出现、数据一致性及现实主义的回归、多副本技术及靠近数据原则的广泛应用、多样化技术及一体化应用并存、简单计算及实用主义占据主导地位、数据产品开发及数据科学的嵌入式应用、专家余及公众数据科学的兴起、数据科学家与人才培养的探讨。最后,结合本文工作,为数据科学研究者给出了几点建议和注意事项。

    大数据正在改变着人们的工作、生活与思维模式,进而对文化、技术和学术研究产生了深远影响。一方面,大数据时代给各学科领域带来了新的机遇——认识论和研究范式的转变,出现了一种区别于传统科学研究中沿用至今的“知识范式”的新研究范式——“数据范式”。“数据范式”的广为应用成为现代科学研究的一个重要转变。另一方面, 大数据带来的挑战在于数据的获得、存储、计算不再是瓶颈或难题&#

    展开全文
  • 我是我们学院数据科学与大数据技术专业的第一批学生,没有学长学姐,目前对于考研很迷茫,想问一下各位盆友们这个专业的考研方向以及院校的推荐。
  • 《中国肿瘤临床》文章推荐:2019年度国家自然科学基金临床肿瘤研究方向分析及思考.pdf
  • 研究生计算机专业的方向有哪些?

    千次阅读 2021-05-23 00:35:21
    目前国外的计算机研究生主要方向有以下这些: 1. System Security, Information Security 系统,信息安全 主要是为数据处理和采集系统提供安全保护,保护计算机硬件、软件、数据不因偶然的或 恶意的原因而遭到破坏...
  • 系统介绍了科学数据网格(SDG)项目“十一五”以来的一些研究进展,重点阐述了SDG数据传输技术的改进以及SDG数据访问中间件(DAS)向IPv6迁移的关键技术的分析和实现,介绍了针对SDG“两步查询”数据查询模式的局限性...
  • 计算机科学与技术专业考研方向

    万次阅读 多人点赞 2012-11-18 16:43:07
    你一定要坚定自己的信念,在就业和考研这两条道路上,一定要明确自己的选择, 他们是两条平行线,彼此冲突,不可能相交,所以你一定... 研究方向:计算机网络、实时计算机应用、CIMS、计算机图形学、并行计算、网络信
  • 推荐 :数据科学研究的现状与趋势

    千次阅读 2018-11-09 08:00:10
    作者:朝乐门(中国人民大学)、邢春晓(清华大学)、张勇(清华大学)来源:《计算机科学》,2018,45(1):1-13. 转自:数据科学DataScience 公众号,...
  • 这两年这个领域的创新创业特别如火如荼的感觉,聚焦数据基础设施细分领域的创业项目扎堆出现,新概念新名词乱花迷眼,之前不温不火的项目转换门面大把融资。本文试图最近期的领域进展做一次梳理总结,分上下两篇,...
  • 很多时候我们走的走的就会忘记当初为什么而出发。我们的时候在拿到数据以后不知道该怎么进行分析,该去分析什么,其实这些在我们以前的统计学中都学过...今天就来聊聊我们该从哪些方向去分析描述数据。 01 总规模...
  • 数据科学专业课程 ####此存储库包含与相关的相关课程 ###Courses 包含在曲目中 课程作业 证书 | | | | 可重复的研究 | 统计推断 | 回归模型 | 实用机器学习 | 开发数据产品 |
  • 数据科学,数据挖掘,机器学习,统计学,运筹学等方面什么不同? 在这里,我比较几个重叠的分析学科,来解释差异和共同点。除了历史原因,时候除了别的东西外别无其他。时候,差异是真实而微妙的。我还提供...
  • 计算机科学与技术考试什么科目计算机统一考试科目:思想政治理论、外语、数学I、综合计算机基础专业(数据结构45分、计算机组成原理45分、操作系统35分、计算机网络25分等科目)。分数是100、100、150和150。计算机...
  • 作者:约翰·凯莱赫(John D....为了帮助人们勇攀数据科学金字塔,很多人或公司提出了他们认为的最佳的数据科学处理流程。最常用的流程为“跨行业标准数据挖掘流程”(Cross Industry Standard Process ...
  • 常用数据科学方法总结梳理笔记

    千次阅读 2019-05-10 16:27:06
    常用数据科学方法 【未经允许,不得转载】 ...
  • 大数据问题的关键技术挑战在于:找到隐含在低价值密度数据中的价值;在希望的时间内完成。指出前者需要将领域知识和数据技术...系统地分析了大数据的数学基础、计算基础、数据基础、分析基础和应用基础等基础研究方向
  • 我们测试旅行成本的降低如何影响科学研究的速度和方向。 使用化学(1991-2012)中的细粒度、科学家级数据集,我们发现西南航空公司进入新航线后,科学合作增加了 50%,当按质量加权输出时,这种效果会被放大。 然而...
  • 【AI白身境】计算机视觉都有哪些研究方向

    万次阅读 多人点赞 2019-03-01 07:22:52
    文章首发于微信公众号《三AI》 【AI白身境】一文览尽计算机视觉研究方向 今天是新专栏《AI白身境》的第10篇,所谓白身,就是什么都不会,还没有进入角色。 相信看了前面的几篇文章后很多朋友已经等不及快速入行...
  • 高考结束,同学们还没过上几天开心到劈叉的日子,就要面临一个直击灵魂的问题:你想好报什么专业了吗?这些年,在大数据和人工智能的背景下,企业对数据科学家的需求正在持续增长。在人才需求巨大的缺...
  • 高考结束,同学们还没过上几天开心到劈叉的日子,就要面临一个直击灵魂的问题:你想好报什么专业了吗?这些年,在大数据和人工智能的背景下,企业对数据科学家的需求正在持续增长。在人才需求巨大的缺...
  • 来源:科奖多媒体中心“十三五”期间,通过支持我国优势学科和交叉学科的重要前沿方向,以及从国家重大需求中凝练可望取得重大原始创新的研究方向,进一步提升我国主要学科的国际地位,提高科学技术满...
  • 推荐 :数据科学与大数据技术专业特色课程研究

    千次阅读 多人点赞 2018-03-22 00:00:00
    在我国,数据科学与大数据技术专业的建设已成为新的热点话题。在系统调研世界一流大学数据科学专业建设现状的基础上,从特色课程视角重点分析加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、斯坦福...
  • 数据科学之大数据知识体系大全

    千次阅读 2018-08-16 13:34:43
    原文链接:数据科学之大数据知识体系大全 1,浅谈数据科学 数据科学数据科学)这一概念...本文主要是想起到科普作用,使即将或正在从事数据工作的朋友对数据科学工作一个全概貌了解,也使各想法进入大数据领...
  • Datawhale原创联合发布:和鲸科技、腾云大学、AWS、Datawhale寄语:为什么要加快推进高校的数据科学教育?数据科学的知识体系包括哪些内容?...
  • 医疗大数据分析的几个重点方向

    千次阅读 2018-09-25 16:59:31
    医疗大数据平台方案采用传统的关系型数据库与大数据平台的混合设计,整体基础数据平台构成包括联机事务库,数据整合交换,大数据平台,数据集市,探索分析,数据驱动应用这六个部分: 实时事务库 联机事务库是企业...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 91,423
精华内容 36,569
关键字:

数据科学的研究方向有哪些