精华内容
下载资源
问答
  • 数据科学家学习小组】之统计学(第二期)第一周(20191028-20191103) 知识点:数据的图表展示本周是统计学学习小组-第二期的第一周,我们这周的学习内容是【数据的图表展示】,涉及到的二级知识点有三个,分别是...

    【数据科学家学习小组】之统计学(第二期)第一周(20191028-20191103)

    知识点
    数据的图表展示本周是统计学学习小组-第二期的第一周,我们这周的学习内容是**【数据的图表展示】**,涉及到的二级知识点有三个,分别是:
    1、数据预处理:数据审核、筛选、排序

    2、品质数据的整理与展示:分类数据的整理与展示、顺序数据的整理与展示

    3、数值型数据的整理与展示:数据分组、数据展示

    可汗学院知识点总结:

    均值、中位数、众数、极差(最大-最小)、中程数:(最大+最小)/2

    象形统计图

    条形图(将事物进行归类,看每一类分别是怎样的情况)

    线性图(随时间的趋势、一个变量对另一个变量的趋势)、

    饼图(希望看到各部分的占比)

    误导人的线形图(刻度的设置)

    茎叶图:(了解分布的情况,但无法很好处理中位数距离和散布情况)

    箱线图(按照四分位进行划分,先求中位数,再求中位数前面的中位数,和中位数后面的中位数,中间两部分为箱,并用中位数分割,两边两部分用线表示)

    在这里插入图片描述

    展开全文
  • 0x00 前言 数据科学家,一个被评为21世纪最“性感”的职业,近些年一直备受推崇。从事数据科学家的工作,不仅意味着你将能够在工作中实践前沿的技术去解决业务问题,同时意味...

    0x00 前言

    数据科学家,一个被评为21世纪最“性感”的职业,近些年一直备受推崇。

    从事数据科学家的工作,不仅意味着你将能够在工作中实践前沿的技术去解决业务问题,同时意味着丰厚的薪水。这两者都能给你带来巨大的成就感。

    那么,问题来了,该如何成为一名数据科学家呢?

    本文将提供如下三方面的思路和方法:

    1. 一个完善的学习路线

    2. 一种能够督促你学习的机制

    3. 数据科学领域一线工作者的技术和经验分享

    0x01 学习路线

    数据科学家是一个要求综合实力很强的职位。它和数据开发、数据仓库、数据分析、数据挖掘等岗位很大的一个不同就在于它要求任职者:

    1. 对整个数据链条都有一定的了解和造诣

    2. 懂业务,能用数据为业务赋能

    3. 综合素质强,能沟通,能汇报,能管理项目

    而这些素质在其它岗位中并没有过多的要求,或者很少需要三者兼备。

    这三点的第一点,就是我们要核心掌握的内容,有此技能为基础,再结合业务和综合素质,你将成为一名优秀的数据科学家。

    那么,如何去掌握整个数据的链条呢,可以参考下图:

    将数据科学家的内容做了一个大致的拆分后,就是如上的内容了。

    不用怕,首先,成为数据科学家并不是让你必须掌握这么多内容,大家做到一精多通即可。就是说,你有一个领域很擅长,其余领域做了解即可。

    比如你是一名数据开发,你要对数据平台的能力有很深的掌握,这是立身之本。在此基础上,你还要懂数据仓库、数据分析甚至是数据产品的内容,这并不是说要去和他们比拼实力,而是说你要成为数据开发中最懂其它领域的人,这样才是你的竞争力。

    0x02 如何学习

    关于如何学习,仁者见仁,智者见智,每个人都有自己的学习方法,这里我分享两个自己的学习方法:

    1. 费曼学习法,简单一点理解就是:站在给别人讲课的角度去学习。

    2. 木东学习法,直观的解释就是:组成学习小组,大家一起学。(木东学习法,此处为杜撰)

    那么,将两种方法结合起来,就是我们的学习小组了。截止目前,我们已经组织了6次数据科学兴趣学习小组。

    注意,这些学习小组都不是以盈利为目的的培训班,是组织大家一起成长的学习小组。

    这些学习小组都是以带着大家学习为出发点,组织大家一起学习、总结和成长,后续会逐步组织:深度学习、Python、Sql、项目管理等一系列的小组,也欢迎大家关注和参加。

    1. 【数据科学家学习小组】论文阅读(第一期):https://github.com/dantezhao/paper-notes

    2. 【数据科学家学习小组】统计学(第一期):https://mp.weixin.qq.com/s/f3pBK9uK-S7lX7IvdDx63A

    3. 【数据科学家学习小组】统计学(第二期):https://mp.weixin.qq.com/s/ZiEvx2Va_sHT-dlDBSSw8A

    4. 【数据科学家学习小组】机器学习(第一期):https://mp.weixin.qq.com/s/G52a4j0lX4ncJYQXMgiJ4A

    5. 【数据科学家学习小组】数据可视化(第一期):https://mp.weixin.qq.com/s/Dqa822NIf_WK_EqSz7nClA

    6. 【数据科学家学习小组】数据埋点(第一期):https://mp.weixin.qq.com/s/zFFb3kYDYW5a7PJQwkwz-A

    0x03 精彩内容分享

    在我们的学习小组基础上,很多一起学习的小伙伴们逐渐进入了各个大厂(BAT、TMD以及各个互联网以及传统行业中)。大家也有了更多了经验分享给大家:

    1. 《七天数据埋点之旅》

    2. 《七天数据可视化之旅》

    3. 《数据仓库系列》

    4. 《特征工程系列》

    5. 《数据挖掘面试题系列》

    6. 《AI算法工程师系列》

    7. 《大厂的面试系列》

    8. 《数据团队思考系列》

    9. 《思考感悟系列》

    10. ......

    因此,我们组成了一个数据科学家联盟,大家在一起组织更多的学习小组,同时分享更多的精彩内容。

    欢迎大家关注:数据科学家联盟,加入我们,和小伙伴们一起进步吧。

    展开全文
  • 摘要: 作为一个数据科学家你必须要掌握的四个必备技能,值得每个想要成为数据科学家和已经成为数据科学家的人去学习。这篇文章对应之前发表过的一篇关于如何成长为一名具备其他技能的高级数据科学家的文章。希望...

    摘要: 作为一个数据科学家你必须要掌握的四个必备技能,值得每个想要成为数据科学家和已经成为数据科学家的人去学习。

    这篇文章对应之前发表过的一篇关于如何成长为一名具备其他技能的高级数据科学家的文章。希望通过高级数据科学家在业务经理和技术数据科学家之间搭起一座沟通的桥梁,以保证随着新技术的不断发展,技术与业务之间的沟通顺畅。

    如图,IT知识和商业知识有着知识鸿沟

    随着科学技术的不断发展,数据科学家们也在不断的成长,在他们成长过程中他们需要更多的关注设计决策和与管理层的沟通。于是,有经验的数据科学家可以帮助年轻的数据科学家,可以利用自己的经验帮助决定最合适的设计决策,能够更好地为自己和公司带来好处。而作为数据科学家在成长的过程中,需要掌握以下4个技能。

    1.能够简化复杂的东西

    数据科学家倾向于使用每个问题和每个解决方案中所知的每种技术和算法。反过来,这又会造成难以维护的复杂系统。数据科学确实需要复杂和抽象的建模以及大量复杂的技术(从Hadoop到Tensorflow)。由于这个领域周围的复杂性,这使得开发系统和算法也很复杂。但是,像大多数其他涉及工程设计的领域,综合考虑,减少其自身的复杂性往往效果更好。

    埃尔温·薛定谔(ErwinSchrÖdinger)和阿尔伯特·爱因斯坦(Albert Einstein)可以帮助我们理解数学和物理学领域的复杂性。

    工程师的角色是简化任务。如果你 曾经建造或看过Rube Goldberg机器,你 将会理解什么是过度设计一项简单任务。制造更简单的系统意味着系统将随着时间的推移变得更容易维护,并为未来的数据科学家提供需要添加和移除模块的空间。

    简单的算法和系统也允许更容易的加法和减法。因此,随着技术的变化和更新需要或模块需要被取出。一个可怜的未来的数据科学家不会用你的代码来玩Jenga游戏(原因之一就是怕技术债务)。

    2.指导如何在没有主键的情况下将数据网格化

    厉害的数据专家应该提供的重要价值之一是将可能不具有主要或明显联系的数据集捆绑在一起。如果数据科学家有能力在这些数据中查找统计模式,那么他将有能力帮助决策者做出明智的选择。但是,这种能力是非常难得的。

    与数据打过交道的人知道它们并不总是很好地集成在一个数据库中。财务数据通常与IT服务管理数据分开,外部数据源可能不具有相同的聚合级别。而有时候数据所存在的价值需要与其他部门和系统的数据一起才能显现,因此这成为了一个难题。

    数据网格划分需要以相同的粒度级别构建块,可以用图中很多小拼图拼成了大拼图来对比想象。

    例如,如果你提供医疗索赔,信用卡和社区犯罪率,并想弄清楚这些社会经济因素如何影响病人?一些数据集可能按人员级别,而另一些数据集可能在街道或城市级别,没有明确的方法来连接数据集。进行的最好的方式是什么?这成为一个必须记录和考虑的设计问题。

    每种情况都有所不同,因为有多种方式来进行数据网格划分,这可能是基于地区、特点、消费习惯等。在这里经验就显得十分重要了,因为他们已经尝试了数百种不起作用的方法,一位经验丰富的数据科学家会拥有判断如何加入数据的直觉。

    3.有选择优先项目的能力

    作为一名数据科学家,你 必须知道如何解释可能不会实现的项目的投资回报率。这是关于能够拥有—清楚地说明价值以及优先考虑长期目标与短期目标的沟通能力。团队中总是有很多的项目和项目要求,使他们应接不暇。有经验的团队需要有成员带头帮助他们的经理人,去决定哪些项目是值得的。

    在这种情况下,需要一个决策矩阵来帮助简化流程。

    项目的经典决策矩阵之一是一个2*2的矩阵,即重要性和紧迫性。这个矩阵可以在大多数商业课程中找到,它非常简单。这就是为什么它是伟大的!

    如果一切都是优先事项,那么什么都不是

    许多其他公司都有这个问题,这就需要数据科学团队中经验丰富的成员清楚地说明现在应该完成哪些项目的原因。

    4.能够开发健全的和最优的系统

    制定在受控环境下运行的算法或模型是一回事。把一个强大的模型整合到一个现场处理大量数据的系统中是另外一回事。根据公司的不同,有时数据科学家只需要开发算法本身,然后开发人员或机器学习工程师将负责投入生产。

    但是,对于小型公司或团队可能会让数据科学小组将代码投入生产。这意味着该算法需要能够以合理的速度管理数据流量。因此,良好的系统设计和优化是必要的。

    数据科学是一个复杂的领域,需要了解数据,统计数据,编程和主题。为了发展,数据科学家需要能够将这些复杂的东西简化并提炼成算法。他们需要能够更多地关注设计决策。这有助于最大限度地发挥他们的知识和经验。

    本文由阿里云云栖社区组织翻译。

    文章原标题《4 Must Have Skills Every Data Scientist Should Learn》

    作者:SeattleDataGuy

    译者:乌拉乌拉,审校。




    想成为真正的数据科学家,除了资历你还需要这4个技能


    杨晓凡  AI科技评

                                                                           

    AI 科技评论按:「数据科学家」可谓是从「大数据」和「机器学习」双双开始普及之后催生的热门职位之一了,许多接触或者学习了机器学习的学生和程序员都期待自己能够成为数据科学家。

    不过,从「会洗数据写代码」到「优秀的数据科学家」之间到底有多少距离,很多人都说不清。对于不同的企业,数据科学家的作用会有各种各样的不同,甚至同一个企业中不同团队的数据科学家都会有不小的区别。就算是想要为自己的数据科学家构建一个标准成长路径的企业都会觉得非常苦恼。

    如果没有清晰的成长路径,这些充满天分的计算机魔法师们就会有遇到瓶颈的风险。他们可能很擅长做出深刻的发现,但是他们可能永远都无法真正地成长、永远都无法带来企业所期待的真正的投资回报。

    带着这个问题,the Seattle Data Guy 采访了西雅图周边的许多顶级科技企业的管理人员,尝试了解他们对企业里的高级数据科学家有哪些期待、希望数据科学家有哪些产出。这些他们了解到的信息相信不仅可以帮助想要成长的数据科学家,也可以帮助想要激励数据科学家成长的企业管理者们。AI 科技评论把他们的发现介绍如下。

    根据访谈得到的结果,the Seattle Data Guy 发现科学家的成长和编程、算法设计都没什么关系(这都是初级数据科学家的基本功了)。当问及这些管理者希望从更资深的数据科学家身上看到什么时,得到的回答是「自我驱动的员工,他们能简明地沟通、能为自己考虑、对公司业务有深入的了解,而且能管理自己的上级」。

    为了让数据科学家成长,他们迎接的挑战也需要超出工作的技术部分之外。数据科学家是有机会改变公司决定的一群人,他们的肩膀上担负着责任;这也意味着他们应当对自己的工作内容有主人翁感。他们要能够质疑自己的数据来源、对信息的洞察要简明扼要、了解公司的业务并且能够帮助自己的上级领导。

    不要仅仅质疑自己的结论,还要质疑自己的数据

    一个资深的数据科学家不会在拿到数据后就直接信任它的。他们会反复查验数据,寻找其中的偏移、丢失的数据、重复数据等等。

    数据总会有自己的缺陷。如果你也曾在数据上花过成百上千小时,那你一定知道这是什么意思。当你在数据中浏览,或者把数据绘成图表的时候,你常常会发现一些奇怪的模式,你会不禁停下来琢磨:「为什么 x 和 z 看起来这么像?」年轻的数据科学家往往会花太多精力在完成项目本身上,他们还没有学会如何停下来仔细分析这些奇怪的模式。这些模式的出现有可能是因为系统的默认输出就是 -1 或 1 这样的特定值,也有可能是让爬虫收集电商网站上的顾客购买数据时出现了偏差,以及其它一千多种可能的原因让数据产生了误导性。

    出现了这些模式不代表数据就一定是错误的、没法使用的。而且即便收集到的数据准确的时候,对数据的操作也还总会带来一些瑕疵。当设计报告、算法和量测指标时,这些因素都应当被考虑到其中。一个有经验的数据科学家不仅仅会尝试寻找数据中的缺陷,他甚至会期待着这些缺陷出现。

    「可信数据源」这个词汇会经常在数据团队中出现。它所指的就是多个团队都能认可正确性的原始数据源。作者自己刚开始做数据科学家的时候就非常天真,在最早的一个项目中,他了解到了他们团队把一个数据源标识为了可信数据源。然后在接下来的几个月里他都在为这个「可信数据源」开发分析和应用工具,以便超过 200 位管理者和总监可以访问这个数据源。不出意外地,没过多久就发现别的一些量测指标出现了一致性问题。这时候作者才意识到,他所用的这个数据源其实是真正的可信数据源经过多次 ETL(提取、转换、加载)之后的数据源。

    在和西雅图的多位科技企业管理者交流过以后,作者发现这事其实很常见。年轻的分析师、数据科学家、经验不足的员工都过于信任他们的数据源。年轻的、经验不足的员工一般来说都急于把工作完成。这就不可避免地让他们更少地理解数据真正的状况。他们并不会追究「为什么」,而是花更多时间确保产品的「功能性」。那么他们就会忽略掉数据中的缺陷。

    一个数据科学家想要,就要停止「做出一个达到要求的算法或者系统然后署上大名结束」的做法,他还需要负起责任,理解数据、弄清数据中的缺陷。这样才能在和上级沟通的时候针对自己的各种假设进行完整的沟通。作为数据科学家,如果出现了不好的输出的时候怪罪数据有问题,那他是没法成长的。

    能简洁地表达自己的发现的价值

    一个数据科学家如果想要成长,他对自己的要求就不能只是做一个合格的程序员 & 统计员。他必须学会如何成为一个沟通者,必须掌握简洁地表达自己的发现的能力,以及能够告诉自己的上级应该如何处理这些信息。

    给自己的总监以及其它管理层成员展示研究过程中收集到的所有的的图表、所有的数据和所有的技术信息以表明自己工作得非常努力,这听上去还不赖。尤其是,数据科学领域内有时候要花几个月的时间才能在某一个问题上做出有价值的进展(背后自然是有原因的)。不过,在一切结束之后,总监们并不需要过多的信息。

    知道重点的信息,以及知道基于这些重点信息应该做什么,对于总监们来说就足够了。你的总监可能还有另外 8 支团队要管,那你跟他讲很多 ROC、讲很多为什么选了这个算法而没有选另一个,就不是很有帮助。大多数的时候你都会发现总监其实只需要 2 到 3 个简单的要点汇报。有时候甚至简单的「是」、「不是」都比「可能…… 在某些条件下…… 这个那个…… 第一种可能性下有这个危险,第二种可能性下有另一些危险」更有用。一个有经验的数据科学家会知道如何仔细打磨自己的洞见、如何浓缩执行步骤,以此来给自己的上级提供真正的帮助。如果你的上级想要知道更多的信息,他会开口问的(并且一个好的数据科学家总是答得上来的)。说到底,管理层们不喜欢陷在一堆不能帮助他们做出更好的决定的多余信息里面。

    了解自己公司的业务

    当数据科学家换工作的时候,没能在上班第一天就完全了解新公司的所有情况是完全正常的。除了数据源、代码库以及其它一些公司特有的系统之外,还有很多别的东西需要学习。他们需要了解接下来要打交道的每天的运营数据,也需要知道公司现在面临的问题。不过,一个有经验的数据科学家还需要能够快速理解公司的业务。

    千万不要全神贯注磨炼自己的技术能力,然后对公司业务只是一知半解。要学习如何和别的团队协同工作、参与到公司的项目中去、给自己一些听取别人意见的机会。数据科学家完全有可能要连续参与各种不同类型的、面对各种不同问题的项目,他们需要能够快速适应。

    刚入行的开发者往往会关注磨练自己的技术能力多于关心自己公司的业务。和很多其它行业一样,重复性的繁重工作都是在较低的级别上进行的(在这里就比如敲代码、数据清洗等等),这就让执行这些任务的人没有时间深入琢磨他们自己应该如何帮助改善公司的业务。然而,在数据科学家工作的头几年中,了解公司的业务应当是一个重要成长阶段,这能确保他们建立起多种多样的技术能力。有经验一些的数据科学家就需要多花点注意力考虑自己的项目的「为什么」。如果一个管理者不挑战自己的有经验的数据科学家团队、不让他们成长并学习公司的业务,那么不能很好成长的责任管理者也要承担起来。每年或者每隔几个月,管理者们都要让经验的数据科学家们面对新的挑战,确保他们在成长。不然公司的业务就明显错过了最大的投入产出比。

    管理自己的上级

    在任何行业中管理自己的上级都不是一件容易的事情。在科技行业中,根据上级主管的技术背景不同,这件事有时候会显得非常困难。关注业务的管理者可能没有什么经验带领技术团队,对于有经验的数据科学家来说在这种时候有能力管理自己的上级就至关重要。善于管理上级的数据科学家能理解别人。管理上级需要数据科学家(或者公司中任何一个在乎这件事的人)花一些时间理解上级的需求。值得考虑的不仅仅是公司的需求。你的上司对你有什么需求、对自己又有什么需求,一旦你了解了这些,你就明白了是什么在驱动他们。这样,在你的上司开口讲他的需求之前你就知道应该期待什么。这能帮助你们建立信任,也能让你的管理者和总监们给你分配更多的资源和注意力。这个世界上不是只有你一个人需要成长,你的上级也想要成长的!作为有经验的(不管哪个级别的)员工,你很清楚帮助别人成长、帮助别人达成目标的时候你自己也有收获。

    总结

    企业对数据科学家的期待不仅仅是创造算法以及管理大量的数据而已。有经验的数据科学家的价值也不仅仅体现在他们的技术能力上,还体现在他们磨练出的软技能上。数据科学家找到的信息和算法要帮助推动高层管理者做出决策。总监和副总裁们可能管理着价值上千万的团队、资源、设备、项目以及公司里其它各种各样的东西,而数据科学家的所有输出都应当是他们可以理解的。这就意味着,为了让数据科学家成长、为了给帮助公司发展业务,他们也就需要知道哪些东西是对公司业务有价值的。

    via the Seattle Data Guy,AI 科技评论编译。





    人工智能赛博物理操作系统

    AI-CPS OS

    人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


    AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


    领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

    1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

    2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

    3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

    AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

    1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

    2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

    3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

    4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

    5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

    AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

    1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

    2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

    3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


    给决策制定者和商业领袖的建议:

    1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

    2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

      评估未来的知识和技能类型;

    3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

      发过程中确定更加明晰的标准和最佳实践;

    4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

      较高失业风险的人群;

    5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


    子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


    如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


    新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。





    产业智能官  AI-CPS



    用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链




    长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


    新技术“云计算”、“大数据”、“物联网”、“区块链”、“人工智能新产业:智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市、“智能驾驶”新模式:“财富空间、“数据科学家”、“赛博物理”、“供应链金融”


    官方网站:AI-CPS.NET




    本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



    版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com






    展开全文
  • 【美】 Zacharias Voulgaris 吴文磊 田原 译 有价值的资源: 1.有用的网页链接 http://www.Kaggle.com 标签:人际网络、大数据分析竞赛、找工作...http://flowingdata.com 标签:数据科学家的职责 目录 ...

    【美】 Zacharias Voulgaris 吴文磊 田原 译


    有价值的资源:


    1.有用的网页链接
    http://www.Kaggle.com 标签:人际网络、大数据分析竞赛、找工作
    http://datascience01.wordpress.com 标签:新闻


    2.相关文章
    http://flowingdata.com 标签:数据科学家的职责


    目录

    第一章 数据科学与大数据

    要点:

    • 大数据的4个V的维度:体量、高速、多样以及精确性
    • 数据科学家是那些将数据整理出规则的人。通过利用最新的 技术和原理,他们可以从中导出可操作的信息,通常是推出 一个数据产品。
    • 数据科学家的职务第一次在文章中出现是在2005年,而它在2009年开始变得炙手可热。在哈佛商业评论的一篇文章中,数据科学家被称为21世纪“最迷人”的职业。

    第二章 数据科学的重要性

    要点:

    • Drew Conway在2010年的9月创作的著名的韦恩图,有效的总结了数据科学的本质。 关于数据科学的韦恩图

    • 数据科学带来了许多新的规则,它们改变了我们的传统处理数据的方式,主要有如下几个。

    • MapReduce
    • Hadoop分布式文件系统(HDFS)
    • 高级文本分析
    • 大规模数据编程语言(如Pig、R、ECL等等)
    • 替代性数据库结构(如HBase、Cassandra、MongoDB等等)

    第三章 数据科学家的类型

    要点:

    • 人们总结了5种不同类型的数据科学家

    • 数据开发者。他们是编程专家,但他们可能缺少数据科学家的其他部分的技能,通常来自于IT行业。

    • 数据研究者。他们是数据分析的专家,同时他们也能处理机器学习以及其他领域的最新技术。他们通常拥有博士学位,而且正在或曾经从事着学术研究。

    • 数据创意师。相比于前面两个类型的数据科学家显得更为全面,偏爱于使用开源软件,而且多才多艺。他们来自于各行各业,尽管通常来说,他们已经是数据科学家了。
    • 数据商务人士(即高级数据科学家)。数据科学家的最高等级,同时常常担任管理角色,相较于数据科学本身,他们更多地接近于商务世界。通常他们具有包括管理学学位在内的多重背景。
    • 混合/普适类型。这一类的数据科学家是最为平衡的,他们同时或多或少地培养了数据科学所需的各个方面。他们多面发展,具有各个类型的背景,但在经验的广度上,都亚于数据商务人士。通常,混合/普适的数据科学家会晋升为数据商务人士。

    第四章 数据科学家的思维体系

    要点:

    • 数据科学家所具有的最重要的特质
      1.好奇心
      2.乐于实验
      3.创造力与系统性工作的能力
      4.沟通能力
    • 数据科学家所具有的主要的素质与才能
      1.建模
      2.解决问题
      3.快速学习
      4.适应性
      5.团队合作
      6.变通
      7.研究
      8.关注细节
      9.报告

    第五章 技术资质

    要点:

    • 你需要熟悉一个或多个面向对象编程语言,例如java和perl。掌握它们中的至少一个语言是必必需的。
    • 拥有一个技术性学科的博士学位在进入数据科学领域会显得十分有用,因为它可以补偿你工作经验的不足,但这并不是一个必备的先决条件。
    • 你需要具备一些对数据科学家工作所特有的专业化知识。
      1.对数据分析工具足够的了解(例如,R,SPSS,SAS,Stata或Matlab)并掌握他们中的至少一个工具。
      2.大数据存储架构经验()例如,Hadoop,Hive等。
      3.其他。数据可视化,关系型数据库,用户建模,大数据集成处理系统。同时还要有大数据领域的数据集的工作经验。
    • 与时俱进。

    第六章 经验

    要点:

    • 获得最初工作经验的方法如下所示,但不仅限于此。
      1.在Kaggle上参加一些数据科学竞赛,可以是以团队形式参加。
      2.获得一个与之相关的实习职位。
      3.如果你是一个硕士生,你的论文案例可以是一个有数据相关问题的公司。
      4.在数据科学团体中做志愿者。
      5.追随一位导师,例如在DataScienceCentral里的那种。
      数据科学中心网站你可能会遇到这样的机会。

    第七章 社交圈

    要点:

    • 在获取大数据科学领域以及其他相邻的领域中最近的革命性技术方面,社交圈可以是一个无价的资源。
    • 数据科学家需要立足于现实,这可以通过社交圈去保持与商业世界的关系来达到。这可以帮助他更好地了解需要什么,并且除了带来工作机会之外,还可以让自己触及有趣的商业机会。

    第八章 所用的软件

    要点:

    • 数据科学家在日常工作中会利用各类工具,本章介绍了其中最具有代表性的,包括:Hadoop/Spark、面向对象编程语言(例如java)、数据分析平台(例如R)、可视化软件以及一些辅助工具(例如GIT和Oracle)。
    • Hadoop是大数据软件界的凯迪拉克,它的套件有几类组件组成,包括文件系统(HDFS)、将数据分析到计算机集群的方法(MapReduce)、机器学习程序(Mahout)、编程语言(Pig)、数据库程序(Hive、HBase等)、调度器(Oozie)、元数据和数据表管理框架(HCatalog)以及调试管理器和协同程序(Zookeeper)等
    • Hadoop套件有很多替代方案,例如Storm、Spark、BashReduce、Disco project..
    • 作为数据科学家,你应该能处理至少一个面向编程语言,例如java、C++、Ruby、Python、C#等。面向对象语言目前是分布最广的编程语言范式,尽管最近有一股面向函数型语言的风潮涌动。
      -Tableau则是数据可视化软件中最好的选择,尽管还有类似于Spotfire、Qlikview、Brist等。
      其它一些程序值得你花时间去了解,GIT、Oracle、MS Excel等。

    第九章 学习新知与解决问题

    要点:

    • 在线课程,特别是MOOC,是最能增长和改善你对各种主题知识的途径之一。
    • 数据科学小组是一个学习领域新知的既有效又充满乐趣的地方。你需要找到一个举办大量活动的小组,有大量活跃在数据科学领域内的成员,同时与小组内的其他成员积极地参与交流。

    第十章 机器学习与R语言平台

    要点:

    第十一章 数据科学的处理流程

    重点:

    数据分析的主要步骤可以总结成以下7个

    • 数据准备。数据准备就是通过数据清洗和标准化将原始数据准备成便于之后步骤处理的形式。这一步骤也包括数据格式的识别转换以及数据的读取。
    • 数据探索。“数据探索是数据分析者通过有效的信息搜索的过程来整合信息以及得到真实可信的分析结果的过程”(www.Techopedia.com)。这一过程包括通过检索数据来找到有用的模式和隐藏规则,发现重要的变量特征,画出简单的图以及识别出这一批数据中有什么有意思的信息以及确定之后的研究方向。
    • 数据表示。根据《麦基尔-科技术语词典》一书,数据表示是“数据在计算机以二进制的形式存储的方法”。这一过程是将各种原始变量数据通过特定的计算机存储结构高效的转换存储在计算机中的过程,在存储空间利用和之后的利用过程中都尽量达到最优化。
    • 数据发现。这一过程旨在通过提出假设和统计检验的方式来发现数据中的各种潜在模式、关联关系等。这其中要用到很多统计知识以及个人直觉来从大量无规则数据中找到真正有显著意义的结论。
    • 数据学习。这一过程主要是通过统计学和机器学习的方法在数据中找到有用的模式和规律。它的目标是使找到的结论尽量的能被运用到更多地数据和实际生活中,并且形成一个数据产品的雏形。
    • 开发数据产品。这可能是所有步骤中最重要的一个:基于已有的数据开发一个产品,并将其与其他人分享。根据Hilary Mason的说法,一个数据产品是“一个由数据和算法组合而成的产品”。
    • 洞察、交付和可视化。这一部风的作用是将产品呈现给最终的用户,并且接受用户反馈、微调程序以及计划产品升级的方案。通过突出重点来完成数据产品的可视化并从中获得灵感,进而开始完成新一轮的数据科学工作。

    第十二章 所需的具体技能

    要点:

    -从一名学生、面向对象编程程序员、软件开发工程师或者其他与数据相关领域工作人员升级为数据科学家的过程并没有想象中那么复杂,但是你需要在此过程中制定合理的计划和目标,并且要个要求自己去完成你的计划。

    • 作为一名面向对象程序员,你需要学习:
      1.学习向量化概念
      2.学习类似于R与Matlab之类的数据处理工具
      3.学习统计和机器学习
      4.熟悉大数据分析平台,例如Hadoop
      5.理解用户是怎么想的,并且尝试去思考用户的需求
    • 作为一名机器学习或者人工智能方面的从业者,你和统计出身的人差不多,同样学习统计学以及更好的编写程序,但同时,你需要学习一些大数据处理技术,以及商业素养和嗅觉,最好按这个顺序学习
    • 如果你恰好对于统计和机器学习都比较了解,那你应该花更多地时间磨练自己的编程技术,并且学习一些大数据的分析平台和工具,然后培养自己的商业思维。
    • 作为一名比较专业的在数据相关领域工作过的人,你可能已经比较熟悉各种类型的数据以及数据结构了,所以你应该花更多的时间在面向对象编程、数据可视化、数据分析、交流沟通的能力上,并且最好获得更多的实战经验和数据处理经历。
    • 如果你是一名学生,你需要制定计划,不偏科而且循序渐进的学习所有的重要的数据科学知识、数据分析、编程、大数据技术、商业技巧等。在此之前,我们强烈建议你先认清自己的优势和劣势,然后再制定学习计划。
    • 最后就是,无论你是什么背景出身的人,你都应该花时间锻炼自己的交流沟通能力,因为它们对于数据科学家来说是一项非常重要的技能。

    第十三章 数据科学职位哪家寻

    要点:

    • 在你开始你的求职之旅之前,你一定要非常清楚自己想要一个什么样的工作,以及自己可以在那些方面做出让步(工资、定居等)
    • 最有效的一种寻找工作的方式就是直接与公司取得联系,包括以下几种:
      1.研究这个公司并且研究清楚该公司的大数据平台和技术目前是什么水平。
      2.找到最合适的求职时机,伺机而动。
      3.学生最好申请当实习生。
      4.与公司内部人员取得联系。
    • 专业的交际圈也是寻找工作的一种好方法。这其中包括了与专业人士的联系、数据科学会议以及社交网站上与数据科学有关的小组。

    第十四章 自我展示

    要点:

    • 重视招聘者的需求是你在准备面试的过程中一定要记在心里而且时时思考的问题。尤其是,你一定要清楚招聘者是想要如何利用大数据,挺清楚他们对于想要招聘到的人的需求。并且要准备好跟面试官解释你可以用自己所学来提供出有利于公司发展的成果,同时要注意交流技巧。多问问题,并表现出你对公司和职位的兴趣。
    • 让自己从竞争者脱颖而出是非常重要的。你需要通过展示自己全面的技术、精湛的大数据相关知识,以及一些非技术方面的优势来让自己从一群固步自封的数据从业人士(例如数据库管理员、商业智能分析师等)中脱颖而出。
    • 独当一面是指在任何一个行业中成为专家所必须具有的能力,而在数据科学领域,尤其如此。这意味着你可以在没有任何指导的情况下,建立工作小组、领导工作小组、设计分析方法、管理进度和技术,并在整个过程中很好地组织大家完成这一切。这对你进入公司之后的晋升是非常重要的。

    第十五章 自由职业数据科学家之路

    要点:

    • 想要成为一名自由职业的数据科学家,你几乎需要掌握一名普通公司的数据科学家会的所有技术,此外要记住你的工资一般是按小时结算的,并且项目一般有一定的时间限度。
    • 除了数据分析之外,作为一名自由职业的数据科学家,你还可以提供一些其他的服务。在你的常规工作之余,你还可以做的事情有如下几种。
      1.编程服务。
      2.数据清洗服务。
      3.指导公司人员或学生。
      4.指导学生论文。

    第十六章 职业数据科学家的案例学习

    案例:
    Raj Bondugula博士…

    Raj Bondugula博士给新手数据科学家的建议是:“在某个方面成为该领域的专家,可以是统计,也可以是机器学习或者java编程,然后再一件接一件地慢慢尝试更多的事情”。你也需要接受别人的帮助,因为你不可能一个人解决所有的问题。
    要点:

    • Hadoop是一项非常重要的工具,并且对于数据科学有非常非同一般的影响力。
    • 在实战中,“数据科学家”和“机器学习专家”基本上是同义词。
    • 数据科学中最具挑战性的问题也可能是未来几年这个领域将会不得不面对的问题,那就是如何从大数据中归纳出合适的问题,找对正确的研究方向以及最终使用合适的方法做出可靠的结果。
    • 数据科学的未来很光明的,这个领域在未来一定会越来越多元化。

    第十七章 资深数据科学家案例学习

    要点:

    • 资深数据科学家与普通数据科学家的区别主要在于:拥有更多地只是积累、领域见解和专业知识,并且更有经验、有能力把问题化繁为简,并且有能力开始一个新项目。
    • 为了得到一个资深数据科学家的职位,大公司的实习经历和优秀大学颁发的博士学位是非常有用的。但如果你都几乎没有可能在你的简历上加上这两点,也可以尝试获得斯坦福大学的机器学习课程认证(Andrew Ng教授亲授的课程)。
    • 为了成为一名数据科学家,你应该均衡的培养以下的技能:
      1.非常扎实的数学基础知识
      2.通过完成竞赛(Kaggle)来获得经验
      3.使用面向对象编程语言或者函数型语言来开发软件。

    第十八章 新数据科学家的召唤

    要点:

    • 针对初级数据科学家的招聘职位是比较少的,至少现在不太多。目前大部分的职位都是针对比较有经验的数据科学家,其次是资深数据科学家。
    • 有一些不错的可以用来寻找数据科学类工作的网站。
      Indeed.com
      LinkedIn.com
      DataScienceCentral.com
      http://www.Kaggle.com

    附录:术语表

    A

    人工智能(Artificial Intelligence,A.I.)——计算机科学的一个研究领域,主要是为了开发一种能够感知周围环境并且做出适当的行为反应,甚至于从那些行为中不断自我学习的机器或者算法。有一些人工智能算法被广泛地用于数据科学领域。

    展开全文
  • 编者注:文中超链接如果不能访问可以点击“阅读原文”访问本文原页面;2019年6月18-21日在北京举行的人工智能大会议题征集已经开始。了解数据工程师和数据科学家之间的差异...
  • IT派 - {技术青年圈}持续关注互联网、大数据、人工智能领域关注摘要: 作为一个数据科学家你必须要掌握的四个必备技能,值得每个想要成为数据科学家和已经成为数据科学家的人去学习。这篇文章对应之前发表过的一篇...
  • 您是否有志成为数据科学家,但却在努力破解采访?嗯 - 你并不孤单!在数据科学领域中断可能很困难。如果您来自非数据科学背景(很可能是您),那么这一点也是如此。 您从其他有抱负的数据科学家那里听到的故事可能...
  • 数据科学家的完整学习路径(Python版) 笑虎 6 个月前 这篇文章是2年前翻译的,发表在伯乐翻译小组,曾经在微博上被大量转发、收藏,所以这里拿过来再次和大家分享一下。原文地址:learning-path-data-...
  • 全文共2712字,预计学习时长10分钟 图源:unsplash ...数据科学是当今IT行业最稳定的研究和实践领域之一,近十年来...作为当今最受欢迎的职业之一,数据科学家们需要一些工具来优化工作成果、提高工作效率,...
  • 数据科学概论Learning Road Map

    万次阅读 2019-04-17 20:30:25
    数据科学概论Learning Road Map 本书第一版出版后,引起了大量的关注。任课老师纷纷表示,愿意使用该教材开设《数据科学概论》课程。 在和一些老师的沟通和交流中,了解到他们面临的主要问题是,内容稍微有点多,...
  • 回顾自己成为高级数据科学家,他为刚踏入数据科学家这条道路的新人写下了数条意见,覆盖道路的选择、工具的选择以及学习计划的制定等方面。   动机 两年前,我分享了在行业内做数据科学工作的
  • 在过去的一年当中,自动化机器学习已经成为一个众人感兴趣的话题。KDnuggets举办了一个关于该话题的博客大赛。结果喜人,有很多有意思的想法与项目被提出来了。一些自动化学习工具也引起了大家的兴趣,受到了大家的...
  • 作者:Jeff Hale翻译:陈之炎校对:冯羽本文约3400字,建议阅读10分钟。本文为你详细分析数据科学家最需要掌握的普通技能以及特定语言和工具的特殊技能。数据科学家需...
  • 全文共1741字,预计学习时长6分钟 ...(一位数据科学家在上班第一天与公司的首席执行官进行了交谈。首席执行官需要有人来预测哪些用户会购买公司产品。数据科学家立刻开始了工作。) 在任职数据...
  • 全文共3085字,预计学习时长10分钟图源:unsplash数据科学的火热已经持续快十年了,饱和谈不上,但如果在谷歌上搜索“如何进入数据科学行业”,你可以得到30亿条结果,关于“如何赚...
  • 作者:谢涛 无论您在数据的科学性问题上持哪种看法,都无法忽视数据的持续...随着机器学习等技术变得越来越普遍,深度学习等新兴领域对研究人员和工程师的需求得到了巨大的推动,数据科学家们在创新和技术进步的浪潮
  • 《Deep Learning with Python 》由Keras之父、现任Google人工智能研究员的弗朗索瓦•肖莱(François Chollet)执笔,详尽介绍了用Python和Keras进行深度学习的探索实践,涉及计算机视觉、自然语言处理、生成式模型...
  • 我们深耕在行业,深知目前国内从行业角度真正缺乏的是有着商业精神的数据科学家数据科学家是商业分析、统计学和计算机科学等领域的通才,成为数据科学家正成为年轻人的新梦想。全球到2018年对数据科学家有上...
  • 来源:AI前线小组本文共3700字,建议阅读12分钟。本文收集了数据科学领域中不同人士关于数据科学家的职业建议,千万别错过![ 导读 ]在 Reddit 上,一位熟悉统计...
  • 数据科学,数据挖掘,机器学习,统计学,运筹学等方面有什么不同? 在这里,我比较几个重叠的分析学科,来解释差异和共同点。...职位包括数据科学家,首席科学家,高级分析师,分析总监等等。它涵盖了
  • 全文共3243字,预计学习时长10分钟 来源:Pexels 数据科学、机器学习和分析被认为是最热门的职业之一。 工业界、学术界和政府对熟练数据科学的...IBM预测到2020年,对数据科学家的需求将飙升28%: https:/...
  • 本文由 伯乐在线 - Allen 翻译,Lingfeng Ai 校稿。未经许可,禁止转载! ...欢迎加入翻译小组。...假如你想成为一个数据科学家,或者已经是数据科学家的你想扩展你的技能,那么你已经来对地方了。本文的目的就
  • 作者:AARSHAY JAIN;翻译:王婷;校对:丁楠雅;本文共4700字,建议阅读10+分钟。本文为你介绍GUI驱动的数据科学工具,帮助新手构建高质量的机器学习模型。引...
  • 如何学习数据科学(@xccds)

    千次阅读 2014-03-17 22:08:42
    如何学习数据科学 原文地址:http://xccds1977.blogspot.com/2013/01/blog-post.html 本文翻译自一篇博客文章,作者是一名软件工程师,他描述了在五年时间内学习数据科学的经历和心得,他的学习途径包括了自学...
  • 了解数据科学家 关于数据科学职业道路的小组讨论 犯罪。 现场演示和安装 滑梯 数据科学概论@ 了解数据科学家@ 发表阅读 经过 其他资源 数据集 -美国政府公开数据的所在地 -浏览公共数据世界-快速搜索和分析由政府,...
  • 本章主要从当今营销领域的五大分析应用领域:数据Data、探索数据Data Explorer、预测模型Predictive Model、优化Optimization和决策Decision这五个方面来进行学习。 营销科学的未来 公司利润新定义 在新兴营销领域,...
  • Matlab代码实践——BP神经网络

    千次阅读 2019-07-16 12:03:11
    BP(Back Propagation)神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式...
  • 论文来源: Comparison of Deep Learning With ...机器学习方法在医药研究中已经应用了几十年。与贝叶斯方法相结合的指纹类型分子描述符的相对易用性和可用性使得该方法广泛应用于与药物发现相关的各种端点阵列...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,680
精华内容 4,672
关键字:

数据科学家学习小组