精华内容
下载资源
问答
  • (1)大数据学习要业务驱动,不要技术驱动:数据科学的核心能力是解决问题。大数据的核心目标是数据驱动的智能化,要解决具体的问题,不管是科学研究问题,还是商业决策问题,抑或是政府管理问题。所以学习之前要...

    (1)大数据学习要业务驱动,不要技术驱动:数据科学的核心能力是解决问题。大数据的核心目标是数据驱动的智能化,要解决具体的问题,不管是科学研究问题,还是商业决策问题,抑或是政府管理问题。所以学习之前要明确问题,理解问题,所谓问题导向、目标导向,这个明确之后再研究和选择合适的技术加以应用,这样才有针对性,言必hadoop,Spark的大数据分析是不严谨的。

    不同的业务领域需要不同方向理论、技术和工具的支持。如文本、网页要自然语言建模,随时间变化数据流需要序列建模,图像音频和视频多是时空混合建模;大数据处理如采集需要爬虫、倒入导出和预处理等支持,存储需要分布式云存储、云计算资源管理等支持,计算需要分类、预测、描述等模型支持,应用需要可视化、知识库、决策评价等支持。所以是业务决定技术,而不是根据技术来考虑业务,这是大数据学习要避免的第一个误区。

    (2)大数据学习要善用开源,不要重复造轮子:数据科学的技术基因在于开源。IT前沿领域的开源化已成不可逆转的趋势,Android开源让智能手机平民化,让我们跨入了移动互联网时代,智能硬件开源将带领跨入物联网时代,以Hadoop和Spark为代表的大数据开源生态加速了去IOE(IBM、ORACLE、EMC)进程,倒逼传统IT巨头拥抱开源,谷歌和OpenAI联盟的深度学习开源(以Tensorflow,Torch,Caffe等为代表)正在加速人工智能技术的发展。数据科学的标配语言R和Python更是因开源而生,因开源而繁荣,诺基亚因没把握开源大势而衰落。

    为什么要开源,这得益于IT发展的工业化和构件化,各大领域的基础技术栈和工具库已经很成熟,下一阶段就是怎么快速组合、快速搭积木、快速产出的问题,不管是linux,anroid还是tensorflow,其基础构件库基本就是利用已有开源库,结合新的技术方法实现,组合构建而成,很少在重复造轮子。另外,开源这种众包开发模式,是一种集体智慧编程的体现,一个公司无法积聚全球工程师的开发智力,而一个GitHub上的明星开源项目可以,所以要善用开源和集体智慧编程,而不要重复造轮子,这是大数据学习要避免的第二个误区。

    (3)大数据学习要以点带面,不贪大求全:数据科学要把握好碎片化与系统性。根据前文的大数据技术体系分析,我们可以看到大数据技术的深度和广度都是传统信息技术难以比拟的。我们的精力很有限,短时间内很难掌握多个领域的大数据理论和技术,数据科学要把握好碎片化和系统性的关系。何为碎片化,这个碎片化包括业务层面和技术层面,大数据不只是谷歌,亚马逊,BAT等互联网企业,每一个行业、企业里面都有它去关注数据的痕迹:一条生产线上的实时传感器数据,车辆身上的传感数据,高铁设备的运行状态数据,交通部门的监控数据,医疗机构的病例数据,政府部门的海量数据等等,大数据的业务场景和分析目标是碎片化的,而且相互之间分析目标的差异很大;另外,技术层面来讲,大数据技术就是万金油,一切服务于数据分析和决策的技术都属于这个范畴,其技术体系也是碎片化的。

    那怎么把握系统性呢,不同领域的大数据应用有其共性关键技术,其系统技术架构也有相通的地方,如系统的高度可扩展性,能进行横向数据大规模扩张,纵向业务大规模扩展,高容错性和多源异构环境的支持,对原有系统的兼容和集成等等,每个大数据系统都应该考虑上述问题。如何把握大数据的碎片化学习和系统性设计,离不开前面提出的两点误区,建议从应用切入、以点带面,先从一个实际的应用领域需求出发,搞定一个一个技术点,有一定功底之后,再举一反三横向扩展逐步理解其系统性技术。

    (4)大数据学习要勇于实践,不要纸上谈兵:数据科学还是数据工程?大数据只有和特定领域的应用结合起来才能产生价值,数据科学还是数据工程是大数据学习要明确的关键问题,搞学术发paper数据科学OK,但要大数据应用落地,如果把数据科学成果转化为数据工程进行落地应用,难度很大,这也是很多企业质疑数据科学价值的原因。且不说这种转化需要一个过程,从业人员自身也是需要审视思考的。工业界包括政府管理机构如何引入研究智力,数据分析如何转化和价值变现?数据科学研究人员和企业大数据系统开发工程人员都得想想这些关键问题。

    目前数据工程要解决的关键问题主线是数据(Data)>知识(Knowledge)>服务(Service),数据采集和管理,挖掘分析获取知识,知识规律进行决策支持和应用转化为持续服务。解决好这三个问题,才算大数据应用落地,那么从学习角度讲,DWS就是大数据学习要解决问题的总目标,特别要注重数据科学的实践应用能力,而且实践要重于理论。从模型,特征,误差,实验,测试到应用,每一步都要考虑是否能解决现实问题,模型是否具备可解释性,要勇于尝试和迭代,模型和软件包本身不是万能的,大数据应用要注重鲁棒性和实效性,温室模型是没有用的,训练集和测试集就OK了吗?大数据如何走出实验室和工程化落地,一是不能闭门造车,模型收敛了就想当然万事大吉了;二是要走出实验室充分与业界实际决策问题对接;三是关联关系和因果关系都不能少,不能描述因果关系的模型无助于解决现实问题;四是注重模型的迭代和产品化,持续升级和优化,解决新数据增量学习和模型动态调整的问题。所以,大数据学习一定要清楚我是在做数据科学还是数据工程,各需要哪些方面的技术能力,现在处于哪一个阶段等,不然为了技术而技术,是难以学好和用好大数据的。

    (5)大数据学习的三个阶段:不同阶段的技术路线各有侧重,把握主要矛盾。在大数据应用实施过程中,由于技术和成本考虑,不可能短时间内解决所有问题,大数据应用本身有其规律和特点,比如分析目标一定是要跟数据规模匹配,分析技术的采用取决于数据结构和数据源条件,数据集成一定要覆盖比较全面的业务背景,关键环节数据不能有缺失等等。

    (6)其它补充:Kaggle,众包与培训。众包是一种基于互联网的创新生产组织形式,企业利用网络将工作分配出去,通过让更合适的人群参与其中来发现创意和解决问题,如维基百科,还有IT资源社区GitHub,都是典型的众包平台。众包+开源极大推动了IT产业的快速发展,当然Kaggle作为数据科学领域顶级的众包平台,其影响力远不止于此(所以刚刚被谷歌收购)。

    企业和研究者可在Kaggle上发布数据,数据分析人员可在其上进行竞赛以产生最好的模型。这一众包模式本质就是集体智慧编程的体现,即有众多策略可以用于解决几乎所有预测建模问题,而分析人员不可能一开始就能找到最佳方案,Kaggle的目标就是通过众包的形式来解决这一难题,进而使数据科学成为一场集体智慧运动。所以说要学好大数据,严重推荐去Kaggle冲冲浪,很好的历练平台。至于大数据培训嘛,基础理论和技术还不甚了解的情况下可以去培训学习,有基础之后还得靠自己多练多解决实际问题。

    做个小结,大数据不是银弹(SilverBullet),大数据的兴起只是说明了一种现象,随着科技的高速发展,数据在人类生活和决策中所占的比重越来越大。面对如此广度和深度的大数据技术栈和工具集,如何学习和掌握好大数据分析这种技能,犹如盲人摸象,冷暖自知。不过技术的学习和应用也是相通的,条条大路通罗马,关键是要找准切入点,理论与实践结合,有全局观,工程化思维,对复杂系统设计开发与关键技术体系的主要矛盾要有所把握。熟悉大数据基础理论与算法、应用切入、以点带面、举一反三、横向扩展,从而构建完整的大数据知识结构和核心技术能力,这样的学习效果就会好很多。

    另外,技术发展也遵循量变到质变规律,人工智能+物联网+大数据+云计算是四位一体发展的(时间有先后,但技术实质性突破都在最近几年),未来智能时代的基础设施、核心架构将基于这四个层面,这种社会演化趋势也很明显:农业时代〉工业时代〉互联网时代〉智能化时代。在这个四位一体智能技术链条里面,物联网重在数据采集,云计算重在基础设施,大数据技术处于核心地位,人工智能则是发展目标,所以学习大数据技术还需要对这四个方面加以综合研究和理解。
      人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    大数据入门之Hadoop基础学习
    http://www.duozhishidai.com/article-12891-1.html
    Spark 和 Hadoop之间,主要有什么联系
    http://www.duozhishidai.com/article-9781-1.html
    大数据工程师培训,需要学习的有哪些课程?
    http://www.duozhishidai.com/article-15081-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 0x00 前言问题哪一本数据相关的书曾让你最受益?可以跟我介绍一下吗话题整理者:橘子,本科学的是金融和商业分析,目前是数据和运筹优化方向研究生,定位有点迷茫,日常在业务和技术的边缘反复横...

    0x00 前言

    问题

    哪一本数据相关的书曾让你最受益?可以跟我介绍一下吗

    话题整理者:橘子,本科学的是金融和商业分析,目前是数据和运筹优化方向研究生,定位有点迷茫,日常在业务和技术的边缘反复横跳,希望能和大家共同学习和进步,一起用数据创造更多的价值。

    问题描述

    数据从业者,最近有些书荒了,想问问大家都有什么好书推荐,技术类和数据思维类的都可以。想请大家多多推荐觉得好的书,如果背后还有些小故事就更好了。不限于数据仓库_数据结构_数据分析_数据挖掘_数据运营,之后我也会把大家推荐的书分门别类地归纳起来,供大家一起参考学习。

    0x01 讨论内容

    以下内容根据大家本次推荐分类整理,分别为:数据分析类(4本)、大数据&数仓类(4本)、算法类(2本),大家可以按需食用~

    讨论1:数据分析类

    1. 《精益数据分析》

    1

    推荐理由:本书的讨论偏向基础数据分析,如果有想转数据分析或对数据分析不是很了解的同学,可以从看这本书开始进入数据分析世界。

    • 一句话说亮点: 每个人都知道需要指标,但是找出那些特别、可衡量、可操作、相关且及时的指标,是一个巨大的挑战。这本书向我们展示了如何使用数据和指标来看透新业务和新产品的不确定性。

    • 这本书的主要脉络:第一部分聚焦于精益创业的基本分析、技术以及思维方式,提出了专注于数据分析的框架;第二部分展示如何讲精益分析用于创业公司中,讨论了六种商业模式创业公司的五个发展阶段,以及如何找出业务的第一指标;第三部分对指标的正常范围进行审视,如何画出指标底线、设置目标;第四部分展示如何将精益分析用于你所在的组织。

    1. 《硅谷增长黑客实战笔记》

    2

    推荐理由:作为奋斗在硅谷”增长“第一线的从业人员,作者用亲身经历总结出增长黑客必备的套路、内力和兵法。这是一本有趣又有实践操作价值的书,尤其是其中从零开始搭建增长团队、如何打响第一炮获取其他部门的重视和信任部分写的很好,并且这本书还提供了很多可以直接拿来用的模版。

    • 一句话说亮点:增长的精髓是一套体系和方法:它以数据为指引,以实验的方式,系统性地在用户生命周期的各个阶段,寻找当下性价比最高的机会,通过快速迭代实验的方式达到目标。这套体系的结果可以衡量、方法可以重复,与传统的市场营销相比,效果和效率的提升是实实在在的。

    • 这本书的主要脉络: 第一部分作者通过故事分享了个人做增长的实践经验,引出增长黑客的概念,教大家在行动之前制定作战计划;第二部分从AARRR不同阶段探讨了增长技巧和实战案例;第三部分教读者如何从头开始组建增长团队并打造增长流程;第四部分是中外9位增长专家的采访,以及增长的入门路径和职业发展。

    1. 《金字塔原理》

    推荐理由:这是一本讲解写作逻辑和思维逻辑的读物。多年前读过本书,但是当时应用没有体会到很大,但开始工作以后,重新读起来,发现对分析思维用处较大。大家在解决问题、管理手下、交流成果、汇报工作时不妨多用该原理思考,提高效率。

    • 一句话说亮点:金字塔原理的基本结构:结论先行+三种逻辑(归纳、演绎、前言结构)。先说中心思想,先重要后次要,先总结后具体,先框架后细节,先结论后原因,先结果后过程,先论点后论据。对每一层的支撑论据,有个极高的要求:MECE,即不重不漏。

    • 这本书的主要脉络:第一部分主要对金字塔原理的概念进行了解释,使读者理解和运用文书的写作技巧;第二部分介绍了如何把握思维的环节,以保证使用的语句能够真实地反映希望表达的思想要点;第三部分主要针对需要写研究分析报告的人士;第四部分介绍了一些演示技巧。

    1. 《数据驱动:从方法到实践》

    4

    推荐理由:百度大神桑文锋出的书,现在是神策数据创始人兼CEO。这本书内容很棒,个人感觉主要是从数据分析的视野来讲解整个数据体系,基本把数据相关的方法论讲了一遍,适合所有从事数据工作的童鞋。书中列出来很多实际工作中会遇到的坑,也都给出了一定的解决思路。总之,该书一直在公司放着,没事就会翻一下。

    • 一句话说亮点:这本书还原了作者构建百度行为大数据处理平台的经历,从采集与埋点、建模、分析方法、指标体系这四个数据驱动环节讲述了不同行业的企业如何将数据驱动方案落地。

    • 这本书的主要脉络:作者从在百度大数据工作的经历谈起,先对大数据的定义和本质等进行了阐述,接着对数据采集、建模、分析、指标依次进行讲解,然后对数据驱动决策的AARRR法进行介绍,最后一部分作者认为数据驱动决策只能发挥数据20%的价值,将目标瞄准了数据驱动产品智能。此外,这本书通过互联网金融、电商、企业服务、零售四个行业,展示从需求梳理、指标设计、数据接入、实际运用这四大阶段进行数据分析的全过程。

    讨论2:大数据&数据仓库类

    1. 《数据仓库工具箱(第3版):维度建模权威指南》

    5

    推荐理由:维度建模是大师 Ralph Kimball 所倡导的, 这本书是数据仓库经典书籍,特别是维度建模相关的内容非常权威,目前市面上能买到的书,很少有比这个更权威的了。不过也因为是经典书籍,还是有一些抽象的概念,零基础来读,可能要花点时间。

    • 一句话说亮点:这本书梳理了数据仓库体系结构和建模过程和技巧,总结了数据仓库体系结构、维度建模的四个步骤、数据仓库总线结构、一致性维度;维度表建模技巧;事实表建模技术。实践性较强,基本所有的概念都有例子说明,语言通俗易懂。

    • 这本书的主要脉络:首先介绍了维度建模的基本知识,然后逐个讨论具体实例内容(如零售营销、库存、订单管理、交通、电子商务等),最后进行综合总体分析,在内容和结构上很有特色,从不同角度体现了数据仓库的各个方面,有助于完整学习与掌握数据仓库知识。

    1. 《大数据日知录》

    6

    推荐理由:推荐这本书的原因就在于现在大部分互联网公司的数据仓库都是基于这一套大数据框架来的,更准确的来讲,大家其实都是先工程,后理论,因此这本书可以作为对大数据生态的一览。

    • 一句话说亮点:这本书主要偏向于各种大数据系统的原理,是居士翻的最多的一本技术书了,基本上把现在流行的大数据组件都介绍了一遍,深度和广度都有,每章内容后面也都有相应的论文推荐。

    • 这本书的主要脉络:这是一本简明扼要的百科全书,从架构与算法角度全面梳理了大数据存储与处理的相关技术,包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。

    1. 《大数据之路:阿里巴巴大数据实践》

    7

    推荐理由:阿里的大数据最佳实践,基本上讲了阿里在大数据实践上的方方面面,特别是数据模型的设计和实践,理论和实践结合的比较好,是我目前看到最好的一本书。

    • 一句话说亮点:该书可作为整个数据体系建设的参考书,从数据平台到数据仓库到数据应用,都有比较不错的讲解。另外,本书的很多论述可以用作方案设计、老板汇报、晋升答辩等,值得反复看。

    • 这本书的主要脉络:第一部分为数据技术篇,包含:日志采集、数据同步、离线数据开发、实时技术、数据服务、数据挖掘;第二部分为数据模型篇,包括:数据模型、阿里巴巴数据整合及管理体系、维度设计、事实表设计;第三部分为数据管理篇,包括:元数据、计算管理、存储和成本管理、数据质量;第四部分为数据应用篇,包括生意参谋和商家应用实践。

    1. 《Apache Kafka实战》

    8

    推荐理由:胡夕的Apache Kafka实战写得不错。之前虽然对很多开源工具都很感兴趣,总喜欢去翻“xxxx权威指南”,但基本没法啃下来。大数据之路加深了我对国产书的好感,于是决定买这本。这本书对我的影响是,以后尽量优先买PMC写的书,他们会比较有大局观,对工具的优缺点,历史沿革和未来发展都有深入的认识。掌握代码细节,又不囿于细节,读下来很有收获。

    一句话说亮点:这是涵盖Apache Kafka各方面的具有实践指导意义的工具书和参考书。作者结合典型的使用场景,对Kafka整个技术体系进行了较为全面的讲解,以便读者能够举一反三,直接应用于实践。

    这本书的主要脉络:第1章全面介绍消息引擎系统以及Kafka的基本概念与特性,快速带领读者走进Kafka的世界;第2章简要回顾了Apache KafkaKafka的发展历史;第3章详细介绍了Kafka集群环境的搭建;第4、5章深入探讨了Kafka客户端的使用方法;第6章带领读者一览Kafka内部设计原理;第7~9章以实例的方式讲解了Kafka集群的管理、监控与调优;第10章介绍了Kafka新引入的流式处理组件。

    讨论3:算法类:

    1. 《美团机器学习实践》

    9

    推荐理由:美团的技术公众号近段时间经常会更新一些干货文章,本书风格也是如此,相当干货,因此本书刚一面世就让美团的朋友送了一本。本书前面几部分包含了特征工程和用户画像的内容,特别是用户画像体系设计可以参考本书。

    • 一句话说亮点:这本书主要是关于机器学习实践的书,可读性很强,都是一些实际案例的讲解,个人认为本书和阿里的大数据之路很类似,都是实战性很强干货十足的书。

    • 这本书的主要脉络:第一部分为通用流程:问题建模、特征工程、常用模型、模型融合。第二部分为数据挖掘:用户画像、POI实体连接、评价挖掘;第三部分为搜索和推荐:O2O场景下的查询以及排序。第四部分为计算广告。第五部分为深度学习。第六部分为算法工程。

    1. 《百面机器学习》

    10

    推荐理由:机器学习面试常见问题,收录了超过100道机器学习算法工程师的面试题目和解答,其中大部分源于Hulu算法研究岗位的基本知识。

    • 一句话说亮点:向要找工作的同学强烈推荐。每一章就是一个领域的常见面试问题,有判断题、证明题、核心思想题、优缺点题等等,并且附上了难度等级,很适合即将面试的同学作查漏补缺用。

    • 这本书的主要脉络:特征工程、模型评估、经典算法、降维、非监督学习、概率图模型、优化算法、采样、向前神经网络、循环神经网络、继承学习、生成式对抗网络、人工智能的热门应用。

    0xFF 总结

    本期还有许多大家推荐的其他书,限于篇幅原因没能一一列举,如果大家觉得本期荐书有帮助的话,欢迎大家继续推荐,未来我们可以继续整理更多好书~

    展开全文
  • 专业名称:数据科学与大数据技术; 人才培养目标:以大数据为核心研究对象,利用大数据方法解决具体行业应用问题。 学制:四年;学位:工学或理学学位。 目前已35所高校申报了大数据专业: 第一批(3所):北京大学...

    从IT时代进入DT时代,高校在大数据方向上设置了哪些专业,具体学什么,就业怎么样,作为新兴专业,考生如何报考?

    具体内容:

    专业名称:数据科学与大数据技术;

    人才培养目标:以大数据为核心研究对象,利用大数据的方法解决具体行业应用问题。

    学制:四年;学位:工学或理学学位。

    目前已有35所高校申报了大数据专业:

    第一批(3所):北京大学、对外经济贸易大学、中南大学;

    第二批(32所):中国人民大学、复旦大学、北京邮电大学、华东师范大学、电子科技大学、北京信息科技大学、中北大学、长春理工大学、上海工程技术大学、上海纽约大学、浙江财经大学、广西科技大学、昆明理工大学、云南师范大学、云南财经大学、重庆理工大学、晋中学院、福建工程学院、黄河科技学院、湖北经济学院、佛山科学技术学院、广东白云学院、北京师范大学-香港浸会大学联合国际学院、成都东软学院、电子科技大学成都学院、贵州大学、贵州师范大学、安顺学院、贵州商学院、贵州理工学院、宁夏理工学、宿州学院。

    数据科学与大数据技术专业都学些什么?

    属于交叉学科:以统计学、数学、计算机为三大支撑性学科;生物、医学、环境科学、经济学、社会学、管理学为应用拓展性学科。此外还需学习数据采集、分析、处理软件,学习数学建模软件及计算机编程语言等,知识结构是二专多能复合的跨界人才(有专业知识、有数据思维)。

    以中国人民大学为例:

    基础课程(38学分):数学分析、高等代数、普通物理数学与信息科学概论、数据结构、数据科学导论、程序设计导论、程序设计实践。

    必修课(37学分):离散数学、概率与统计、算法分析与设计、数据计算智能、数据库系统概论、计算机系统基础、并行体系结构与编程、非结构化大数据分析。

    选修课:数据科学算法导论、数据科学专题、数据科学实践、互联网实用开发技术、抽样技术、统计学习、回归分析、随机过程。

    数据科学与大数据技术专业人才需求情况怎样?

    根据领英发布的《2016年中国互联网最热职位人才报告》显示,研发工程师、产品经理、人力资源、市场营销、运营和数据分析是中国护理万网行业需求最旺盛的职位。

    目前国内有30万数据人才,预计2018年,大数据人才需求将有大幅增长,高端人才如大数据科学家的缺口在14万至19万之间;懂得利用大数据做决策的分析师和经理缺口达到150万,数据分析师现在需求就很旺盛了,2年工作经验的月薪可达到8K,硕士学历的数据分析师月薪可达到12K,5年工作经验的可达到40万至60万元。

    数据科学与大数据技术专业可以从事的工作有哪些?

    重视数据的机构已经越来越多,上到国防部,下到互联网创业公司、金融机构需要通过大数据项目来做创新驱动,需要数据分析或处理岗位也很多;常见的食品制造、零售电商、医疗制造、交通检测等也需要数据分析与处理,如优化库存,降低成本,预测需求等。人才主要分成三大类:大数据系统研发类、大数据应用开发类、大数据分析类,热门岗位有:

    1.大数据系统架构师

    大数据平台搭建、系统设计、基础设施。

    技能:计算机体系结构、网络架构、编程范式、文件系统、分布并行处理等。

    2.大数据系统分析师

    面向实际行业领域,利用大数据技术进行数据安全生命周期管理、分析和应用。

    技能:人工智能、机器学习、数理统计、矩阵计算、优化方法。

    3.hadoop开发工程师。

    解决大数据存储问题。

    4.数据分析师

    不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。在工作中通过运用工具,提取、分析、呈现数据,实现数据的商业意义。

    作为一名数据分析师,至少需要熟练SPSS、STATISTIC、Eviews、SAS、大数据魔镜等数据分析软件中的一门,至少能用Acess等进行数据库开发,至少掌握一门数学软件如matalab、mathmatics进行新模型的构建,至少掌握一门编程语言。总之,一个优秀的数据分析师,应该业务、管理、分析、工具、设计都不落下。

    5.数据挖掘工程师

    做数据挖掘要从海量数据中发现规律,这就需要一定的数学知识,最基本的比如线性代数、高等代数、凸优化、概率论等。经常会用到的语言包括Python、Java、C或者C++,我自己用Python或者Java比较多。有时用MapReduce写程序,再用Hadoop或者Hyp来处理数据,如果用Python的话会和Spark相结合。

    6.大数据可视化工程师

    随着大数据在人们工作及日常生活中的应用,大数据可视化也改变着人类的对信息的阅读和理解方式。从百度迁徙到谷歌流感趋势,再到阿里云推出县域经济可视化产品,大数据技术和大数据可视化都是幕后的英雄。

    大数据可视化工程师岗位职责:1、 依据产品业务功能,设计符合需求的可视化方案。2、 依据可视化场景不同及性能要求,选择合适的可视化技术。3、 依据方案和技术选型制作可视化样例。4、 配合视觉设计人员完善可视化样例。5、 配合前端开发人员将样例组件化。


    本文作者:佚名

    来源:51CTO

    展开全文
  • 在上一篇中,我概括地解释了一些主要的人工智能...那接下来我们就来说说利用这些人工智能系统我们今天可以做些什么,有哪些用途,以及现在的研究领域与方向。 总的来说,我们可以从两个方面来利用当前的人工智能系...

    上一篇中,我概括地解释了一些主要的人工智能概念,包括机器学习,神经网络和深度学习。也概述了当前人工智能背后的基本原理提及了从大量样本中学习的机器学习系统,解释了深度学习系统能够更丰富地展现这些样例。那接下来我们就来说说利用这些人工智能系统我们今天可以做些什么,有哪些用途,以及现在的研究领域与方向。


    总的来说,我们可以从两个方面来利用当前的人工智能系统:


    完成更出色的数据科学工作

    我们长期以来使用传统统计方法或软件工程来处理下面这些数据科学领域的工作。但是在有了机器学习系统以后,我们可以做得更好出色:

    • 预测根据过去的数据预测未来的情况,如天气预报或股市分析。
    • 分类:区分照片中的是一匹斑马还是一匹普通的马; 文章的叙述是正面性的还是负面性。
    • 回归分析:分析照片中人物的年龄; 汽车预期的燃油效率等等。

    实现真正的人工智能

    机器学习系统还可以完成那些早期计算机系统不能胜任的工作,从这点来看它们也更接近真正的非人类智能:

    • 创造性工作:在学习了大量样本之后创造出新的事物。
    • 持续学习:通过不断地试错,学习完成一些复杂的任务。比如,玩游戏。

    随着人工智能慢慢从小说情节变成现实生活,上面第一个方面的能力让人感觉更触手可及,而第二个方面则还像是科幻小说中的情节。 这里我主要讨论关于数据科学的内容,这个系列的第三篇我会围绕创造性工作和持续学习来展开。


    预测未来

    从历史数据推广到未来的情况,我们也称之为预测。任何大型的组织或机构都离不开这方面的工作:例如“鉴于去年的情况,明年我们的业绩会怎样?”。通常来说简单的预测模型可能只涉及几个因素。比如,通过历史上同一时间的某地气温来推测现在的温度。 而更复杂的模型则会涉及更多的参数,有时甚至会超出人类的计算能力。

    我们可以用统计学,机器学习和神经网络这三种不同的方法来处理不同的问题:

    • 如果我们要解决类似根据历史数据预测产品的最佳价格这类的常规业务问题,那就可以遵循传统的财务或统计模型。
    • 如果我们手头有很多参考因素,但又不知道如何把它们运用于预测工作,那么就可以参考机器学习的解决方案,从而找到最适合的模型。 这种问题往往属于数据科学的范畴,可以通过复杂的电子表格和编程语言(如R)来解决。
    • 如果我们需要通过一些不太容易理解的数据集进行预测,而这些数据集恰恰又不易转换为简单数值的话,那么神经网络可能会有它的用武之地。

    神经网络能够实现与传统统计学方法相同的数学模型。我写了一个可以粗略预测气温的演示示例。神经网络可以被看成一个黑盒,从而让反向工程变得相当困难。相反,使用Excel电子表格的话,其中的模型完全是透明的。两者孰优孰劣就要看实际的应用场景了。

    结论:大多数组织机构并不需要人工智能完成日常财务状况的预测工作,这样的预测结果也不容易被验证或审计。 但在许多其他领域,机器学习的方法还是值得一试的。

    分类和识别

    40年前,人工智能已经被用来对美国邮政的信件进行分类了。 自动手写识别系统通过给定一个字母形式从而选择它所代表的字母。通过光学字符识别系统,人们明确地告诉机器线条组合映与字符的映射关系这在当时属于人工智能的一个例子,但它却不是机器学习。相比之下,当前的神经网络可以在没有人类明确指导的情况下,“自己”学习完成某项任务。

    深度学习之所以备受瞩目,是因为你可以将任何分类问题交给它来解决(只要你有足够多的样本来让其进行学习)。在机器学习出现之前,人工智能系统仅限于人类可以枚举的所有特征,例如识别由有限的一组字母,数字和标点符号组成的邮政地址。 随着问题复杂度的增加,人类“导师”本身则成了系统的瓶颈。机器学习让我们摆脱了这个困境。

    识别图像

    经过训练的深度学习系统可以非常快速地进行分类任务。自动驾驶汽车使用摄像机和其他传感器来识别重要的现实世界对象,比如树木,公共汽车和交通信号灯等。不过,它们还有许多地方需要改进,而这也是自动驾驶汽车还没真正驶上马路的原因之一。 机器学习系统仍然在视觉识别任务方面还有许多难题需要解决,例如如何在任何照明条件下来准确识别物体,这方面人的眼睛可以相对轻松地到达目标。 相反的,如果分类任务要求人类受过非常专业的训练,比如识别肿瘤,深度学习系统可能会做得更出色。毕竟神经网络系统能在较短的时间内完成大量的样本学习,而这对于人类则是不太可能的。

    识别语言

    除了识别字母之外,机器学习系统还可以在语义层面执行语言分类任务。 通过查看许多标记过的句子,他们可以被训练用来回答问题,“这两个句子是否意味着相同的事情?”,“ 这家餐厅是正面还是负面?

    自然语言系统可以有效的对人类语言进行分析。 由于社交媒体的出现,一场文字的海啸正在向我们袭来。也许再好的自然语言系统也比不上人类的语言能力,但是它却能够处理完任意一个社交媒体上所有的文字信息。

    总结:深度学习方法特别适用于对复杂的,原始的数据进行分类。 如果经过适当的训练,神经网络可以在图像中发现微妙的模式,这在医学诊断中具有深远的影响。 机器学习也可以应用于理解人类语言,但目前人们还只能把它当成自然语言研究的辅助工具。


    回归分析

    有时我们的分类问题有可能不是非此即彼的明确判断(正或负”,“是猫还是狗”)。就好比我们在预测天气时,不仅有确切的温度值预测,同样还可能有“晴天”或“多云”的分类判断。这类问题我们就称为回归分析。

    和基于时间的预测一样,在回归分析领域,我们已经有了很多现成的算法与技术。大多数情况下,我们并不需要在这个已经很成熟的学科领域使用机器学习系统。我们可以利用神经网络探索那些新的问题领域。

    我认为基于神经网络的预测已经不仅仅能处理纯数字数据了。 与之前提到的分类问题一样,深层神经网络可以根据各种人类行为数据进行真实价值的预测,比如基于财务报表分析股票波动。

    为了验证我的想法,我用了四万幅名画训练了一个深度学习网络,然后要求它推测出作品的创作年份。平均来说,它推测出的成画年代与真实年代有65年左右的误差。显然人类专家做出的判断会更准确,但比起普通人来说这已经是一个不错的成绩了。

    c511e34d5b4498671f6422711f21b0a5397718e3

    左边是真实年代,右边是推测的年代。这里有完整的代码,同时这个是项目的笔记,包括了图表和更多的训练样本。

    总结:根据在训练中提取出的特征,神经网络可以比传统的统计模型更好地进行回归分析,特别是对那些数据间的相关性并不容易被发现的场景,神经网络便能发挥它的优势。


    从科学到小说

    随着互联网的发展,我们面临着数据的大爆。海量的文本,视频,音频数据需要进行处理,而这已经远远超出其他技术的能力,不过幸好现在我们有了机器学习这个强大的工具。深层神经网络的作用不仅仅于此,它还有着创造能力,并”学会“与人类在现实世界中进行互动。请参阅这个系列的第三篇:


    本文由北邮@爱可可-爱生活老师推荐,@阿里云云栖社区组织翻译。

    文章原标题《AI Literacy: How artificial intelligence classifies and predicts our world - Part 2: Better data science with prediction, classification, and regression

    作者:Liza Daly  软件工程师,担任过Safari 公司的CTO。涉及的领域包括机器学习,数码艺术和电子读物出版等。

    译者:friday_012 审阅:

    文章为简译,更为详细的内容,请查看原文



    展开全文
  • 数据可视化起源于图形学、计算机图形学、人工智能、科学可视化以及用户界面等领域的相互促进和发展,是当前计算机科学的一个重要研究方向,它利用计算机对抽象信息进行直观的表示,以利于快速检索信息和增强认知能力...
  • 作为一个科学学科,计算机视觉研究相关理论和技术,视图建立能够从图像或者多维数据中获取“信息”人工智能系统。 目前,非常火VR、AR,3D处理等方向,都是计算机视觉一部分。 计算机视觉应用 无人...
  • 从IT时代进入DT时代,高校在大数据方向上设置了哪些专业,具体学什么,就业怎么样,作为新兴专业,考生如何报考?  具体内容  专业名称:数据科学与大数据技术;  人才培养目标:以大数据为核心研究对象,...
  • 学习路线概述概述数据结构和算法操作系统计算机网络数据库设计模式 概述 作为一名本科机械电子,研究研究...跟大家一样,刚开始看到这些概念的时候,我也是懵比的,本科学的C语言,也顺利通过了江苏省计算机二级,
  • 剑桥大学:PyTorch 已 碾 压 TensorFlow

    万次阅读 多人点赞 2020-10-11 12:23:53
    NeurIPS 接收论文中,29% 作者中国大学本科学位,但他们在毕业后 54% 会去美国攻读研究生博士,这其中又 90% 选择留美工作。剑桥大学 2020 版《AI 全景报告》写出了 AI 领域哪些值得关注新观察? ...
  • 主要研究方向为信息检索、自然语言处理和数据挖掘。《信息检索导论》译者。主持国家973、863、国家自然科学基金、国际合作基金、国家支撑计划等课题20余项,发表学术论文120余篇。现为ACM会员、中国中文信息学会理事...
  • 主要研究方向为信息检索、自然语言处理和数据挖掘。《信息检索导论》译者。主持国家973、863、国家自然科学基金、国际合作基金、国家支撑计划等课题20余项,发表学术论文120余篇。现为ACM会员、中国中文信息学会理事...
  • spival-源码

    2021-02-18 09:16:05
    这些数据助于确定在航天器或地面上发生了哪些其他相关事件,这些事件可能会影响科学观测或S / C系统性能解释。 除这些辅助数据外,还要求软件应用程序知道所观察目标位置,大小,形状和方向。 几乎所有...
  • ● 目前有哪些区块链+金融应用,它们发展得怎么样了? 报告首先指出,区块链本质是分布式共享账本,并不适合存储和传输所有的数据,而仅针对与资产相关“账本类数据”具有突出价值。OK资本投研负责人周子涵特别...

空空如也

空空如也

1 2 3 4
收藏数 68
精华内容 27
关键字:

数据科学的研究方向有哪些