精华内容
下载资源
问答
  • 数据科学家 VS 真数据科学家

    千次阅读 2017-06-07 09:58:23
    如今数据科学书籍、认证和文凭,如雨后春笋般层出不穷。但许多仅仅是镜花水月:许多人钻了这一新名词的空子,将旧酒(比如统计学和R编程)放在了“数据科学”这个新瓶里... 本文选自《数据天才:数据科学家修炼之道》。

    如今数据科学书籍、认证和文凭,如雨后春笋般层出不穷。但许多仅仅是镜花水月:许多人钻了这一新名词的空子,将旧酒(比如统计学和R编程)放在了“数据科学”这个新瓶里。
    本文选自《数据天才:数据科学家修炼之道》。

    R语言编程跟伪数据科学为何扯上了关系?

      R是一种有20多年历史的开源统计编程语言及编译环境,是商业化产品S+的后继者。R一直以来都局限于内存数据处理,在统计圈子里非常流行,并因其出色的可视化效果为人称道。一些新型的开发环境通过创建R程序包或者将其扩展到分布式架构里(比如将R与Hadoop结合的RHadoop),将R(限于在内存里处理数据)的能力扩大。其他程序语言当然也存在跟伪数据科学沾边的情况,比如说SAS,但不及R这么流行。说到SAS,它价格高昂,在政府机构或者实体企业的应用更为广泛。但在过去10年数据快速增长的领域(如搜索引擎、社交媒体、移动数据、协同过滤推荐等)运用不多。R跟C、Perl或者Python的语法不一样(后三者语法根源一样),其简易性使得写R的程序员比较广泛。R还有很多程序包和不错的用户界面,SAS却难学很多。

    管理决策层在搭建其数据科学家团队时,有时也不是很清楚他们想要的到底是什么。

      他们往往最终招募的是很纯粹的技术极客、计算机科学家,或者缺乏恰当大数据经验的人。人力资源部门对于数据科学的了解也不会好到哪里,因此导致更为严重的问题,他们给出的招聘广告就是不断重复类似的关键词:Java、Python、MapReduce、R、Hadoop和NoSQL。

    数据科学真的就是这些技能的混合吗?

      **MapReduce**只是一个将数据分解为子集,在不同机器上分开处理,并把所有结果集合起来,从而处理大数据的泛化框架。因此它涉及的是处理大数据的分布式框架,用到的这些服务器和设备则组成云(Cloud)。

      **Hadoop**是MapReduce的一种实现,就像C++是面向对象编程的实现一样。

      **NoSQL**意味着“Not Only SQL(意为不单只是SQL)”,是指能更新颖、更高效地访问(比如MapReduce)数据的数据库或数据库管理系统,有时它是作为SQL(标准数据库查询语言)之下的隐藏层而存在的。

      除了MapReduce以外,还有其他框架——例如,图形数据库和环境,它们依赖于节点和边这类概念,来管理和访问数据(通常是空间数据)。这些概念并不一定是新的。在谷歌存在之前,分布式体系结构已被应用到搜索技术环境中了。15年前,我写Perl脚本进行哈希连接(一种NoSQL连接,用来连接或合并数据库中的两个表)。然而,现在一些数据库厂商提供的哈希连接,是SQL连接的一个快速替代品。哈希连接在本书后面还会讨论到。它们使用哈希表,并依赖于名称-值对的形式。我想说的结论是,有时MapReduce、NoSQL、Hadoop、Python(一种优秀的脚本语言,往往用于处理文本和非结构化数据)会被认为是Perl的后继者,但它们根源于几十年前就开发出的系统和技术,只是在过去的10年里变得更成熟而已,但数据科学并不只是这些。

      事实上,你可以成为一名真正的数据科学家,且不需要掌握这些技能。NoSQL和MapReduce不是新概念——在这些关键词被创建之前,就有很多人接触到它们。

    成为一名数据科学家,你需要以下能力。

    • 敏锐的商业头脑。
    • 真正的大数据专业知识(例如,可以在几个小时内快速地处理一个5 000万行的数据集)。
    • 认知数据的能力。
    • 对模型具有猜疑精神。
    • 了解大数据“诅咒”。
    • 有能力沟通并理解管理人员正在试图解决哪些问题。
    • 能正确评估付你工资所能带来的回报(ROI)或效益提升(lift)。
    • 能够快速地识别一个简单的、健壮的、可扩展的解决方案。
    • 能够说服并推动管理人员,即使不情愿,也要为了公司、用户和股东的利益,转到正确的方向上。
    • 真正热爱数据分析。
    • 成功案例的实际应用经验。
    • 数据架构知识。
    • 数据收集和清理技能。
    • 计算复杂度的基础知识——如何开发健壮的、高效的、可扩展的、可移植的架构。
    • 良好的算法知识。

    数据科学家在商业分析、统计学和计算机科学等领域也是通才,比如会掌握这些专业知识:健壮性、实验设计、算法复杂度、仪表盘和数据可视化。一些数据科学家也是数据策略师——他们可以开发数据收集策略,并使用数据来发现可操作的、能对商业产生影响的见解。这就要求数据科学家具有创造性,能根据业务要求,制定分析、提出解决方案。

    要理解数据科学,所需的基本数学知识包括:

    • 代数,如果可能的话,包括基本矩阵理论。
    • 微积分入门课程。要掌握的理论不多,只需要理解计算的复杂度和O标记法即可。了解特殊函数,包括对数、指数、幂函数。微分方程、积分和复数不是必要的。
    • 统计与概率的入门课程,要了解随机变量、概率、均值、方差、百分位数、实验设计、交叉验证、拟合度和稳健统计的概念(不需要了解技术细节,而是达到本书介绍的程度即可)。

    从技术的角度,要掌握的重要技能和知识有R、Python(或Perl)、Excel、SQL、图形(可视化)、FTP、基本的UNIX命令(sort、grep、head、tail、管道和重定向操作符、cat、cron定时等),以及对如何设计和访问数据库有基本了解。了解分布式系统如何工作和在哪里能发现瓶颈(是在硬盘和内存之间的数据传输,还是在互联网上),这也很重要。最后,要了解网络爬虫基本知识,这有助于获取互联网上能找到的非结构化数据。

    伪数据科学的例子

      这里有个伪数据科学的例子,说明数据科学家要开展工作,为什么需要遵循标准和最佳实践。这里讨论的例子,并不是说它们是不好的产品——实际上,它们有很多的内在价值——但跟真的数据科学无关。原因有以下两点:

    • 首先,部分统计学家没有参与到大数据革命中。虽然有些人还写了关于应用数据科学的书,但只是重新包装原来的统计课程。
    • 第二,适合大数据集的方法需要变化——按2005年的大数据定义,当有2 000万行数据时,才有资格成为大数据——但2010年后不能再这样划分,因为大数据至少是TB级的。

    不少人认为数据科学是统计学的一个新名字,他们把数据科学和伪数据科学,以及2005年的大数据定义与2013年的大数据定义弄混淆了。现代数据也有很大的不同,已经被描述为3个V:速度(velocity)(实时、快速流动)、多样化(variety)(结构化、非结构化,如微博内容)和大数据量(volume)。我会增加真实性(veracity)和价值(value)。

    例子:某一本数据科学电子书

      查看一所著名大学2012年的数据科学训练手册,书的大部分内容是关于旧的统计理论。这本书用R来说明各种概念。当用逻辑回归处理仅仅1万行数据时,并不是大数据科学,它是伪数据科学。这本电子书全部关于小数据,最后几章例外,在那里你会学到一点SQL(嵌入在R代码中)的知识和如何使用R包从Twitter提取微博内容,且创造出作者所说的词云(它和云计算没关系)。

      即使提取Twitter内容的项目也还是小数据,也没有分布式体系结构(例如,MapReduce)。事实上,该书从来没有谈到数据架构。该书的水平是初级的。每章以简单的方式(适合高中学生阅读)简短介绍大数据和数据科学,跟该书实际涉猎的小数据科学不搭,跟项目和技术展示脱节。

      也许作者增加了这些简短的段落,是为了可以将他的“R统计”的电子书,重新改名为“数据科学的介绍”。它是免费的、很好的、写得很棒的书,且会使高中学生对统计和编程感兴趣。但它与数据科学无关。

      本文选自《数据天才:数据科学家修炼之道》,点此链接可在博文视点官网查看此书。
                          图片描述
        想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                             图片描述

    展开全文
  • 未来三到五年,数据科学家的职业发展前景如何?他们还有哪些选择呢? 在 Reddit 上,一位熟悉统计、编程、分析、工程等多项技能,且主要关注产品的数据领域从业者提出了一个让他非常烦恼的问题:每个公司似乎都更想...

    未来三到五年,数据科学家的职业发展前景如何?他们还有哪些选择呢?

    在 Reddit 上,一位熟悉统计、编程、分析、工程等多项技能,且主要关注产品的数据领域从业者提出了一个让他非常烦恼的问题:每个公司似乎都更想要一位精通特定领域的专家,比如 ML、NLP、CV 专家等,但是对于 数据科学家 这个岗位的定义又不是特别明朗,这对于一个什么都懂一些,但没有特别精通的领域的通才来说好像很不利。未来三到五年, 数据科学 家的职业发展前景如何?他们还有哪些选择呢?

    这个话题也是大多数人在进入数据领域之前都会问的一个非常重要的问题。随着自动化机器学习工具的迅速普及,企业在几年内还会需要数据科学家吗?这个问题在 Reddit 上引发了网友们的热烈讨论,收集了数据科学领域中不同人士的多方观点,其中有一些很好的职业建议,你千万别错过!

    楼主的问题
    我是一个以产品为主要关注点的多面手,擅长很多事情(统计、编程、分析、工程和搞定各种事情),但没有专长。

    我最近正着手找新工作,却发现求职市场看起来十分残酷。每个公司似乎都更想要一位精通特定领域的专家,比如 ML、NLP、CV 专家等,但是对于数据科学家这个岗位的定义又不是特别明朗,他们对一个什么都懂一点,没有特别精通的领域的通才好像并不重视。这说明了什么?是不是大多数公司已经收获了成果,现在正在寻求通过预测模型获得更多收益;或者说他们自己也不知道到底想要什么?

    对于以上问题,网友们在 Reddit 上进行了热烈的讨论,更有人基于自己的亲身经历提出建议。

    DS、管理岗、工程师?选适合自己的
    回复 1:据我观察,你可以选择数据科学家 / 技术团队领导岗位、产品经理(与你的产品背景直接相关)、项目管理、CTO、架构师、专家(比如咨询公司的职位)等岗位,这取决于你的背景和专业能力。

    回复楼上: 很有趣的建议,尤其是产品经理—我会认真考虑这个建议,我所在的公司也有这样的机会。唯一的问题是领域不吸引人,这对 DS 来说很重要,对 PM 更重要。

    回复 2: 你的选择很多!你现在的岗位跨了很多领域,接下来你对哪个领域感兴趣就可以在哪一部分投入更多的精力。

    我建议你选择 3 条道路:

    继续深入数据科学家岗位

    转工程师

    转管理岗

    然而,关键的一点是,你需要塑造自己的角色,这是因为大家对数据科学家并没有明确的定义,而即使定义明确,通常也要求这个岗位的人是个多面手,或者至少成为公司多个部门之间的接口。

    以下是每条道路中你可以选择的路径:

    继续深入数据科学家岗位

    组长

    高级数据科学家

    首席数据科学家

    CTO

    VP 工程师

    普通数据科学家

    统计学家(包含很多不同资历级别)

    技术人员经理

    架构师

    研究员(不常见)

    转工程师

    数据工程师

    软件工程师,机器学习

    软件工程师,后端或全栈(前端不常见)

    工程经理(通常情况下,风险团队或依靠 DS 的其他工程团队是个更好的选择)

    硬件工程师(设计 TPU 芯片等,当然比其它选择更罕见)

    VP 工程师

    CTO

    开源贡献者或作者

    “商业”角色

    非技术人员经理

    产品经理

    设计师(罕见,但不是没有)

    创业

    CEO

    销售

    (作为一名优秀的 DS,你可能需要学习如何呈现你的想法,并说服别人采取行动的过程,这是一项非常重要的工作)

    技术传播者

    创业公司顾问

    顾问(不要低估这份工作的难度,如果你想成为一名 DS 顾问的话)

    非营利人士(要求很多,一影响很大,因为非营利部门在收集和使用数据方面不如营利部门)

    VC(合作伙伴、风险投资公司或其投资公司的技术顾问、资源等)

    成功的数据科学家首先会把自己包装成行业专家
    回复 3: 通常来说,我见到的最成功的数据科学家首先是把自己作为行业专家来包装,其次才是数据科学专家,例如“供应链、数据科学”。他们会更多地强调在商业环境下完成任务,而不是技术。

    回复楼上: 很棒的建议,谢谢。在这种情况下,我未来的职业规划是应该成为技术专家还是领域专家呢?

    回复楼主: 这取决于你的职业理想和你真正热爱的是什么,在自动化 / 咨询行业(我所在的行业),走两个方向的人都有。

    有些人继续做内部顾问 / 主题专家。这些是依靠特定领域(技术、统计、零售库存管理、工程子类型等)生存的人。

    其他人则喜欢成为多面手,对业务特定部分(例如供应链)的关注度较低,并充分利用他们对董事类型角色领域和工具广泛了解的优势。有些人甚至创办了自己的公司。

    在这两种极端之间还有很多道路可供选择。这很大程度上取决于你处于职业生涯的哪个阶段,以及工作的哪些特点会吸引你。

    回复 4:我最近也在找工作,但外面的世界很残酷。我会选择偏重编程的工作而不是统计。

    楼主回复: 有具体的建议吗?为什么我不应该选择统计专家这个方向呢?

    回复楼主: 如果你对编程感兴趣的话,偏重编程的工作岗位会更安全(不容易失业)。当然如果你有过硬的博士或硕士经验,你也可以尝试竞争统计专家的职位。我个人认为,现在被称作“数据科学”的工作中至少有 80% 未来会转变为工程类或后端编程的工作。

    回复楼上: 真的假的?!我猜有很多人在政府从事应用统计相关的工作。我在一次会议上认识了一个在政府税务部门工作的应用统计员,他所在的团队有 20 个人,做的事情是使用 R 创建模型找出税收欺诈行为,而他所在的办公楼里还有其他十多个团队在做同样的事情!

    回复楼主: 那是因为数据科学家这个词的定义太过宽泛。大多数这个岗位的工作内容包括很多 SQL 查询、数据清理等诸如此类的琐碎事务。最安全且薪水丰厚的是机器学习工程相关的数据科学家,但这个岗位要求有非常过硬的技术背景。

    回复楼上: 即使这类工作也并不安全。

    回复楼主: 熟练掌握数据流水线、数据挖掘、存储和检索才是王道,有了作为数据科学家的经验,你将会很好地了解数据怎样呈现给分析师或数据科学家,或者自己,这样以后才会有更多的选择。如果两者都擅长的话,将会助你的事业一臂之力。

    回复 4: 以 Facebook 为例,这家公司为员工设计了两条职业道路:个人贡献者(IC)或管理岗。我所在的公司和 Facebook 相似但有所不同,这里有很多人同时是 VP 兼 IC。我个人是从数据科学家转到管理岗位的。我仍然会做一些手头的技术性工作,但更多的时间是在协调、指导以及管理人事。

    我认为你首先要问自己是想要的是做技术性的工作,还是更想走战略、管理型的路线(或两者兼而有之)。

    优秀的数据科学家应该多项技能傍身
    回复 5: 数据科学正在变得越来越商业化、自动化,并可供程序员使用。我得出一个结论,成为一名优秀的数据科学家要拥有一个“X”factor,即特定的技能集合(如 NLP、ML、 大数据 架构),领域 / 行业专长或与其他技能组合(社交、演讲、谈判、全堆栈 web 编程…)。

    回复 6: 我有 5 年数据科学工作经验,也面临着相似的困境,我想要在一家创业公司创建一支数据科学团队,专心研究数据,但已经放弃寻找一份结合建模 + 战略 + 编程的工作。

    回复 7: 同样作为一个多面手,我建议首先应该考虑在哪家公司工作而不是岗位,在任何岗位上尽力做好自己的工作就好。

    未来数据科学家会被自动化工具取代吗?
    AI 前线曾经看到过一篇关于数据科学家职业发展的文章,作者认为随着数据科学的发展,目前数据科学家的许多工作将被自动化的工具取代,而数据科学家这个职业也将不再存在。实际上,虽然自动化工具可以帮助数据科学家做的事情越来越多,比如 API 在预测方面已经能够比拟传统的分析技术了,但目前来看,数据科学家仍然是供不应求的。自动化工具能做的事情毕竟有限,当然更重要的是,作为数据科学家,也需要不断开发和学习新的自动化工具。

    对于数据科学家来说,职业生涯中的选择和所有工种一样重要,就像 Reddit 网友大多数认同的那样:走向技术岗或是管理岗最终要取决于自己个人的喜好和对工作的热情。

    希望我们整理的这篇文章对于刚刚进入数据科学行业、在职业规划上存在困惑,或从业多年正在苦恼于职业生涯的下一步怎么走的朋友能够提供一些帮助。欢迎你与我们分享“过来人”经验,如果你有类似的苦恼也可以给我们留言,和大家一起探讨。

    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    精英数据科学家应该具备这些能力和特质
    http://www.duozhishidai.com/article-14280-1.html
    数据科学家的工作性质是什么,主要面临什么挑战 ?
    http://www.duozhishidai.com/article-13986-1.html
    数据科学是什么,如何成为一名数据科学家?
    http://www.duozhishidai.com/article-8521-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 数据科学家是干什么的呢?哪些地方需要数据科学家?怎么样才能成为数据科学家?如果你正因为这些问题而犹豫要不要开始学习数据科学,那么我可以告诉你,成为数据科学家其实非常简单 从行业内部的蓬勃发展,到招聘会上HR...

    数据科学家是干什么的呢?哪些地方需要数据科学家?怎么样才能成为数据科学家?如果你正因为这些问题而犹豫要不要开始学习数据科学,那么我可以告诉你,成为数据科学家其实非常简单

    从行业内部的蓬勃发展,到招聘会上HR们的大声宣传,我们都可以看出,数据科学家已经成为当下最炙手可热的职业之一。

    行业专业人士分析,未来几年数据科学岗位缺口将达到数百万。不仅仅是顶级科技公司需要数据科学家,未来各行各业都会需要设立数据科学相关岗位,来帮助他们发展。

    工作岗位有了,但是可以做这些工作的人却很少。数据科学行业急需人才,但是现实情况却不容乐观,虽然大批大批的人涌入科技行业,但是他们大部分人都不知道,除了编程、计算机和工程学之外,还有别的高科技岗位。今年早些时候,都柏林大学设立了数据科学学士点,以满足行业对数据科学家的大量需求,这是爱尔兰首个数据科学学士点。

    那么数据科学家是干什么的呢?哪些地方需要数据科学家?怎么样才能成为数据科学家?如果你正因为这些问题而犹豫要不要开始学习数据科学,那么我可以告诉你,成为数据科学家其实非常简单。

    首先,你需要知道什么是数据科学。简单来说,数据科学是一门交叉学科,而数据科学家需要学会数据读取与分析,根据数据提取信息,实现数据可视化,以各种各样的方式和角度分析解读数据。

    现在你已经知道了数据科学家是干什么的了,接下来就可以培养自己成为一名数据科学家了。下面让我们用图文相结合的方式,8步教你变身数据科学家。

    第一步:学好数据学、数学和机器学习

    数据科学不过就是和数字打交道的学科而已,所以你需要温习一下你的数学知识。数据科学家还需要掌握分析和展示技巧,正确解读数据并准确分析出数据表达的信息。

    第二步:学会编程

    数据科学家还需要具备其他的技巧,如计算机,端对端研发,用Python语言、R语言或者SAS编程。

    第三步:熟悉数据库

    数据科学家每天与数据打交道,当然还需要熟练使用数据库软件,如Oracle和MySQL。

    第四步:了解数据科学家工作流程

    在你具备了必要的技能之后,接下来你需要熟悉数据科学家的工作流程,从一开始收集数据,到最后完成分析报告,中间需要经过哪些环节呢?

    第五步:提高大数据水平

    开始处理网络平台数据,需要了解大数据处理过程与其他数据处理过程的不同之处,并且熟悉如何存储数据与处理数据。

    第六步:成长、联络、学习

    同时,你还需要去参加比赛,挑战自己提高水平;主动接触数据科学行业的专家,去发掘你自己对这个行业的兴趣方向;找到一个喜欢的项目,增加数据科学实践,提高数据表达能力;培养职业直觉,找到理论与实践结合点。

    第七步:完全投入

    以上几步都完成之后,你就可以开始实战演练了。通过实习和训练营,一步一步成为一名真正的数科学家。

    第八步:加入大数据社区

    加入大数据社区,及时了解大数据行业新闻讯息,牢牢把握大数据航向!

    有这么多的公司需要数据科学家和分析师,只要你身怀技艺,他们都会争着来讨好你,希望能把你纳入麾下。
    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    数据科学家的工作性质是什么,主要面临什么挑战 ?
    http://www.duozhishidai.com/article-13986-1.html
    一个优秀数据科学家的主要构成特点
    http://www.duozhishidai.com/article-5539-1.html
    成为一名数据科学家,最重要的是学会什么?
    http://www.duozhishidai.com/article-4180-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
      
    展开全文
  • 关键词:数据科学家、Glassdoor网站、indeed网站、工作岗位、Kaggle平台、LinkedIn(领英)公司、McKinsey(麦肯锡)公司。2011年,麦肯锡...

    关键词:数据科学家、Glassdoor网站、indeed网站、工作岗位、Kaggle平台、LinkedIn(领英)公司、McKinsey(麦肯锡)公司。


    640?wx_fmt=jpeg


    2011年,麦肯锡发布的《大数据》报告称,“仅美国就面临着14万至19万名具有分析专长的人才短缺,以及150万名具备理解并基于大数据分析做出决策能力的管理人员和分析师的短缺”。


    2014年,我们调查了数据科学家的数量,当时的估计为50名至10万名,且当时并没有看到数据科学家大量短缺的证据。2014年,我们在indeed.com网站上仅发现了约1000个“数据科学家”的招聘广告。


    2016年,我们研究了德勤的一项研究。德勤在研究中预测:到2018年,企业将需要100万名数据科学家。


    现在已经是2018年了,所以我们可以检验上述预测的准确程度,并且尝试回答以下三个问题:

    1. 现在是否存在数据科学家的短缺?

    2. 现阶段有多少“数据科学家”?无论是名义上的还是实际职能上的。

    3. 数据科学家的未来前景如何


    1 数据科学家短缺吗?

    第一个问题的答案似乎是肯定的。


    LinkedIn公司在2018年8月发布的美国劳动力报告中提到:“对数据科学家的需求空前高涨……具有数据科学技能的人才短缺问题几乎存在于美国的所有大城市。在全美国范围内,共缺少151717名具有数据科学技能的人,其中纽约市(34032人)、旧金山湾区(31798人)和洛杉矶(12251人)的人才短缺尤为严重。”


    值得注意的是,LinkedIn报告中的人才短缺是指具有“数据科学技能”的人,而不一定是拥有“数据科学家”头衔的人。


    我们可以通过两个热门的求职网站——indeed和Glassdoor——来估计对“数据科学家”的需求。


    在indeed.com网站上搜索美国的“data scientist”(加引号),只能找到约4800个工作岗位。


    (注意:在indeed网站上进行搜索时使用引号十分重要。搜索没有加引号的data scientist可以找到约3万个工作岗位,但我们不确定这些工作岗位中有多少是针对其他领域的科学家的。)


    美国是数据科学家最大的市场,却非唯一的市场。通过在indeed的区域性站点(indeed.co.uk、indeed.fr、indeed.de、indeed.co.in等)上进行搜索,我们可以发现其他国家对数据科学家也有强烈的需求:

    • 英国:1100个工作岗位

    • 法国:718个工作岗位

    • 德国:900个工作岗位

    • 印度:500个工作岗位


    在Glassdoor网站上输入“Data Scientist”进行搜索,可发现美国大约有2.6万个工作岗位(删除引号也会得到同样的结果)。


    2 现阶段有多少“数据科学家”?

    谷歌搜索将数据科学家定义为:“受雇用于分析和解释复杂的数字数据(如网站的使用统计数据)的人,从而协助企业做出决策。”


    由于数据科学是集统计学、计算机科学、机器学习和商业于一体的交叉学科,因此在业界和学术界有许多人虽从事这项工作却没有正式的数据科学家头衔。因而我们可以通过调查流行的数据科学平台来估计当前数据科学家的数量。


    Kaggle(现在是Google的一部分)是一个数据科学和数据分析的竞赛平台,它声称是世界上最大的活跃数据科学家社区。虽然并非所有数据科学家都参加过Kaggle比赛或拥有Kaggle账户,且并非Kaggle上的所有人员都从事数据科学工作,但我们可以合理地假设数据科学家群体与Kaggle人员群体存在大量重叠。 2017年6月,Kaggle的社区成员数量突破了100万。2018年9月19日的Kaggle电子邮件称,他们的社区成员数量在2018年8月超过了200万。由于并非所有Kaggle成员都是活跃的,所以Kaggle的社区成员总数可能是全球从事数据科学的人的数量最大值。


    KDnuggets网站现在每个月有超过50万名独立访客,由于网站专注于帮助数据科学家和机器学习工程师更好地完成他们的工作,因而我们可以合理地认为网站的大多数访客都在数据科学或机器学习领域工作,无论他们的实际头衔是什么。但由于部分访客可能是无意中随机访问了KDnuggets,因而我们可以了解网站的订阅者或粉丝——这个更活跃的子集。


    KDnuggets目前在Twitter、LinkedIn、Facebook、RSS和电子邮件上拥有约24万名订阅者或粉丝。虽然不同平台的人会有一些重叠,但对于全球众多的数据科学家来说,大约20万的人数预估似乎是合理的最小值。


    在LinkedIn上,有许多致力于数据科学的组织。尽管这些组织的参与度一直在下降,但我们可以粗略地估计他们的成员数量。以下是三个最大的数据科学组织的预估成员数量:

    • 大数据和分析——33.9万名;

    • 数据科学中心——27.8万名;

    • 数据挖掘、统计、大数据、数据可视化和数据科学——17万名。


    这些组织成员的头衔有着巨大的多样性,这些头衔包括数据科学家、数据分析师、统计学家、生物信息学家、神经科学家、市场营销主管、计算机科学家等等……可以肯定地说,任何从事着传统数据科学家所从事的工作的人都可被认为属于这一类别。随着越来越多的人需要通过分析数据来获得见解或做出关键决策,传统上职位和职责不同的人们都热衷于学习数据分析这一新技术,以适应自己的领域。这虽然并不能使他们从根本上成为数据科学家,但他们确实拥有该领域的知识和才能。


    我们还可以从数据科学家的LinkedIn个人资料中获取一些有用信息,这些资料显示有超过10万人拥有数据科学家头衔。


    640?wx_fmt=jpeg

    图1:LinkedIn数据科学家简介(按行业和地点分类)


    在LinkedIn上搜索“数据科学家”(加引号很重要),我们发现超过10万人拥有该头衔。 因此,如果全球有20万到100万人在做一些与数据科学相关的工作,那么他们中的大多数人都没有数据科学家的头衔。


    我们还可以通过查看与数据科学最相关的语言和平台(R、Python、机器学习库、Spark和Jupyter)相关的活动来估算大型数据分析/可视化/统计社区的规模。 

    Apache Spark Meetups上现有22.5万名成员,而且每个月都在增长。 Intel Capital估计全球有100万R程序员。 根据python.org网站上的公开数据,现在已有约275万次的下载量。 Jupyter项目目前拥有约300万用户。 这些数字可以为我们提供全球数据分析师或数据科学家数量的粗略上限。


    3 数据科学家的未来前景

    数据科学家近期的前景看起来很光明。


    2017年的LinkedIn新兴就业报告称,2017年的机器学习工程师比5年前增加了9.8倍。 在LinkedIn报告上,机器学习工程师、数据科学家和大数据工程师跻身新兴岗位之列。 自2012年以来,数据科学家增加了650%以上。


    640?wx_fmt=jpeg

    图2:LinkedIn十大新兴职位及其增长情况(2012年至2017年)。


    根据美国劳工统计局的数据,未来十年的就业增长预计将超过前十年的增长,到2026年数据科学或数据分析领域将创造1150万个就业岗位。


    640?wx_fmt=jpeg


    IBM最近宣称,到2020年,数据科学和分析职位的数量预计将增加近36.4万个,达到约272万个。 因而无论目前数据专业人员的真实数量是多少,他们的数量在不久的将来很可能会继续增长。


    然而,从长远来看,自动化将取代业内的许多工作,数据科学家的工作也不例外。 如今,DataRobot和H2O等公司已经为数据科学问题提供了自动化的解决方案。


    2015年KDnuggets民意调查中的受访者认为,大多数专家级的预测分析或数据科学任务将在2025年实现自动化。为了保住工作岗位,数据科学家应该专注于培养更难自动化的技能,如业务理解、解释和讲故事的能力。


    作者:Gregory Piatetsky、Preet Gandhi

    原文标题:How many data scientists are there and is there a shortage?

    原文URL:https://www.kdnuggets.com/2018/09/how-many-data-scientists-are-there.html

    翻译、校对和排版:李雪明、朝乐门;

    转自:数据科学DataScience 公众号;

    END

    版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


    关联阅读:

    原创系列文章:

    1:从0开始搭建自己的数据运营指标体系(概括篇)

    2 :从0开始搭建自己的数据运营指标体系(定位篇)

    3 :从0开始搭建自己的数据运营体系(业务理解篇)

    4 :数据指标的构建流程与逻辑

    5 :系列 :从数据指标到数据运营指标体系

    6:   实战 :为自己的公号搭建一个数据运营指标体系

    7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

    数据运营 关联文章阅读:  

    运营入门,从0到1搭建数据分析知识体系    

    推荐 :数据分析师与运营协作的9个好习惯

    干货 :手把手教你搭建数据化用户运营体系

    推荐 :最用心的运营数据指标解读

    干货 : 如何构建数据运营指标体系

    从零开始,构建数据化运营体系

    干货 :解读产品、运营和数据三个基友关系

    干货 :从0到1搭建数据运营体系

    数据分析、数据产品 关联文章阅读:

    干货 :数据分析团队的搭建和思考

    关于用户画像那些事,看这一文章就够了

    数据分析师必需具备的10种分析思维。

    如何构建大数据层级体系,看这一文章就够了

    干货 : 聚焦于用户行为分析的数据产品

    如何构建大数据层级体系,看这一文章就够了

    80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

    从底层到应用,那些数据人的必备技能

    读懂用户运营体系:用户分层和分群

    做运营必须掌握的数据分析思维,你还敢说不会做数据

    合作请加qq:365242293  


    更多相关知识请回复:“ 月光宝盒 ”;

    数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

    640?wx_fmt=png

    展开全文
  • 课程2:迈向数据科学家:带你玩转Python数据分析(22课时)  【哪些人适合学习这门课程?】   对Python感兴趣人员,从事Python开发,学习Python数据分析者  【课程如何观看?】  1、登录...
  • 这七个最推荐的数据科学的技能是从许多业内从@谷歌主管工程@ NVIDIA的高级主管,和数据科学与工程的副总裁@ Wealthsimple等业内从业员讨论,得出的结论,希望对你有帮助 虽然这篇文章可能更多的是轶事,但我觉得这篇...
  • 导读:人们认为“数据”一词自16世纪伊始便已被定义和使用了。随着计算机技术的进步,数据一词变得越发流行。然而,数据不仅限于计算机科学和电子学领域,各个领域的应用在某种程度...
  • 参与文末话题讨论,每日赠送异步图书——异步小编William Chen是Quora的一位数据科学家,在那里他协助Quora发展壮大,为这个世界分享知识。在拿到哈佛大学的统计和应用数学双学位之后,他直接成了一位数据科学家,也...
  •  数据科学社群Kaggle发布了2018年即第二届数据科学/机器学习业界现状调查报告。这份调查问卷的受访者囊括了全球50多个国家的 23,859 多位从业者,相对去年增加了49%。根据他们的问卷结果,九章时代给大家送来最...
  • 数据科学家一般都具有高学历——88%的数据科学家至少是硕士学位,46%的数据科学家是博士学位,这表明想要成为一名数据科学家需要非常好的教育背景(知识了解深入)。常见的专业是计算机科学、社会科学、物理科学和...
  • 仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。一、数据科学家的起源"数据科学"(DataSc...
  • 译者注:本文是出自Springboard上面一篇文章的摘录,介绍了如果想成为一名数据科学家,需要掌握哪些技能,熟练使用哪些工具,以及如何对数据进行处理等。以下为译文。 这篇博文是Springboard上面一篇文章的摘录...
  • 21个数据科学家面试必须知道的问题和答案转载请注明! KDnuggets 编辑提供了用以斟辨“假”数据科学家之二十问的答案,包括什么是正则化(regularization),我们喜爱的数据科学家,模型验证等等。作者:Gregory ...
  • 数据分析师、数据科学家、大数据专家三个职位的区别 2018.6.11 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 随着数据科学和大数据作为主流职业选择的出现,不少人对相关职位名称的内涵存在...
  • 目前国内的数据科学家岗位,大致可分为四类:数据开发、数据分析、数据挖掘、数据产品 简单介绍些这几个岗位的主要职责 数据开发: 1、负责数据收集、清洗和规约等工作; 2、提供面向业务的数据服务,完成数据指标的...
  • 中国数据科学家年薪有多少?

    万次阅读 2017-11-02 14:47:23
    这份调查问卷的受访者囊括了全球50多个国家的16,000多位从业者,根据他们的问卷结果,大讲台老师带大家看看中国数据科学家的现状。 (一)数据科学家年龄 中国的数据科学家的平均年龄是25岁,真的不...
  • 77个数据科学家常见面试题

    千次阅读 2016-08-29 15:31:04
    随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题...
  • 我们赋予了数据如此大的转变的能力,也难怪近几年越来越多的数据相关的角色被创造出来。 这些角色的职责范围,从预测未来,到发现你周围世界的模式,到建设操作着数百万记录的系统。在这篇文章中。我们将讨论不同的...
  • 要成为一位数据科学家需要具备多方面的人才,虽然目前人才缺乏,但学习数学、统计等专业的人才未来可以培养成为数据科学家。 随着大数据技术的发展,数据挖掘方面的人才变得日益抢手。而《哈佛商业评论》日前更是...
  • 数据科学家Vs机器学习工程师原文: What are machine learning engineers?来源: https://tech.co/12-ways-advantage-big-data-2017-05导读:真正让“数据科学”发挥出了强大威力的,是在人们意识到,数据不仅止于...
  • 数据的处理平台的搭建:包括公司的基础数据平台以及各个具体业务线的指标数据和日志数据平台。此步的设计和技术选型严重依赖于后两步的分析需求。 历史数据的分析挖掘:包括跟各种产品线相关的业务分析,用户...
  • 【数据可视化有什么意义?】 举一个身边的例子,我们平时在电视上看到的... 【通解数据科学 拓宽收益渠道】 如今,许多行业都有数据方向的人才需求。 掌握数据分析与可视化技能,你就可以: 【适用人群】 【三重权益】
  • 数据科学的热浪席卷大多数行业,如《哈佛商业评论》所述,数据科学家已成为21世纪最性感的工作。 虽然市场对经验丰富的数据科学家的需求越来越大,但对这份工作的描述大都很模糊。此外,很多招聘经理对数据科学和...
  • 最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括最学术的算法和面向产业化的算法。哪些方法/算法是您在过去 12...
  • 数据分析师,BI开发人员,数据科学家和数据工程师的角色分别是什么?
  • 高管、 CxO(电商企业首席惊喜官)、 C-Suitefolks(全球高管)、投资方,所有在企业高层的人都想展示,他们的公司或项目处于最新技术进步的前沿。...数据科学项目通常涉及大量的实验、试验、误差方法以...
  • 数据科学家经典20道面试题

    千次阅读 2016-03-15 22:20:07
    这个问题没有标准答案,下面是我个人最崇拜的12名数据科学家,排名不分先后。 Geoff Hinton, Yann LeCun, 和 Yoshua Bengio-因他们对神经网络的坚持不懈的研究,和开启了当前深度...
  • 数据科学家也许是“21世纪最性感的工作”,但他们每天在做什么?是不是一直在建模?或者将70-80%的时间用于清理数据? 以下列举了五位来自业内人士的5个回答,来帮助你了解数据科学家的日常事务。 1. 机器学习...
  • 专栏 | 九章算法 ... 虽然数据科学这项工作已经出现了近...根据 Paysa 近期的薪酬数据,数据科学家的平均年收入已高达$100K。 而且更让人吃惊的是:一些顶尖科技公司给数据科学家提供的薪酬是平均薪酬水平的两倍多。...
  • 最近KDnuggets针对数据科学家最常使用的算法作了一个调查,有一些意外的发现,包括最学术向的算法和最产业向的算法。 下面是调查结果,总调查人数是 844 人。 数据科学家最常用的Top 10种算法和方法,以及投票比例:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 194,455
精华内容 77,782
关键字:

数据科学家