精华内容
下载资源
问答
  • 2022-02-08 14:52:17

    b3be99a7ab6590868113dd5d4e38e453.png

    今天听了一场报告会,是清华计算机系60周年系列讲座之一,主讲人是哈工大软院院长李建中教授,主题《计算和数据资源受限的大数据计算的复杂性理论与高效算法研究》,李老师介绍的大数据计算理论体系很完善,由于只有一个小时,很多只能稍微提及,但是还是有很多观点让我受益匪浅,分享一下。

    本文预计阅读时间 5 分钟。

    什么是大数据?

    wiki定义:Big data is data sets that are so big and complex that traditional data-processing application software are inadequate to deal with them.

    首先大数据指的是数据集,是纯粹的数据。其次,由于复杂与庞大,传统的数据处理软件无法处理。这样的数据集就可以叫大数据。

    这个定义其实很模糊,什么叫传统的数据处理软件无法处理的?也没规定硬件。那超级计算机能处理的算不算?普通的CPU、内存,后面接一个存储柜装个几百 T 数据算不算大数据呢?

    因此,个人感觉,应该是普通PC机的配置,256内存,12T硬盘,用传统的数据库Oracle,MySQL不好用了,感觉单机撑不下了,或者单表数据量几百万以上性能急剧下降无法满足要求了。这时候就叫传统的搞不定了,需要考虑大数据解决方案了。

    大数据计算问题

    输入:大数据 D,问题 P 的参数

    输出:问题 P 的解 P(D)

    这里重点是输入一个大数据。有一个很容易混淆的场景是拥有的数据量很大,TB、PB级,但是每次用来计算的只有几十或几百MB,这个输入就不能称为大数据,因此这种问题就不是大数据计算问题。

    你面临的问题不是大数据计算问题有什么问题吗?没什么问题,如果真碰到了大数据计算问题就麻烦了。

    由此也给出大数据计算的定义:

    大数据计算:求解大数据计算问题的过程。

    大数据计算的挑战

    报告的前提是“计算和数据资源受限”,为什么这个很重要呢?因为一般情况下这是搞大数据的都会面临的实际问题,如果一个人说他的大数据场景没这种问题,很有可能他的数据不够大。下面看看受限的两个方面:

    1、计算资源的强受限性

    先不说最简单的计算,只说遍历一遍数据。

    大数据一般指 TB、PB、EB、ZB、YB 级别的数据。以机械硬盘和 SSD 的 IO 速率来考虑。1TB的数据遍历一遍(顺序读取),机械硬盘1G/s,需要17分钟,SSD算5G/s,需要3分钟。

    一个精确的算法至少需要将所有数据遍历一遍。因此这个时间可以认为是处理大数据的最少时间,那么 1PB 数据用 SSD 遍历就需要 2 天多,而且 1PB 的SSD 成本相当大,估计没有人这么搞。数据量再大还得继续乘 1024。

    多项式时间不再是大数据计算问题易解性的判别标准。对于PB、EB需要至少亚多项式,对于ZB、YB至少需要polylog多项式时间才算易解。

    2、数据资源弱可用性

    这个特性主要说的是数据质量差。理想中数据应该是整整齐齐的,但是实际上数据很多都会有错误,大概有10%左右的错误数据。人工记录的数据就可能由于脑子进水记错了。数据错误会造成很大经济损失。

    既然数据有错的,那么能不能修正呢?修复的复杂度是n^3数量级的,很难修复。因此,修复后的数据也不会100%正确。这个叫弱可用性数据,如何在弱可用性数据上进行计算,使结果的误差满足要求,是另一个重要的研究方向。

    一些计算方法

    1、小数据近似大数据

    所谓大事化小,小事化了。需要发现大数据的内在规律,才能将问题简化,这个就跟具体问题十分相关了,没啥通用方法。类似把123*234*345*0化简为1*0。

    2、增量计算方法

    将需要计算的数据分成很多小份,一份一份算。不过这个需要计算具有可加性。比如给 1 万个数求和,先分 10 份,每份 1 千个数求和,再给 10 个和求和。

    3、直接处理压缩数据

    将 100T 数据压缩为1G,在1G数据上直接设计算法就会容易很多。但是如果要达到在 100T 上数据计算的效果,需要压缩方法具有映射完整性,也就是100T数据能完全对应到 1G 上,1G 数据也能完全恢复为 100T 数据。举个例子:1,1,1,1,1,压缩为5,1。

    大数据系统

    这部分回到我们经常听到的 Hadoop,MapReduce,Spark了。这些是大数据计算框架,但是只有这个是不够的,在面对一个问题时主要需要解决的还是算法问题。

    举个例子:大数据计算框架就像高级包工队,他们有盖1万层高楼的能力,这是传统包工队干不了的。但没有图纸是没法盖出楼来的。而图纸就是算法。

    总结

    大数据是指传统方法处理不了的数据集。大数据计算问题处理的是大数据。计算受限和数据受限是大数据计算中普遍存在的客观现象。这时对于一个大数据计算问题的复杂度分析就很重要,到底能不能计算,多长时间能计算出来,算出来的结果准不准,都需要理论支持。

    更多相关内容
  • 包括〔英〕维克托·迈尔·舍恩伯格(Viktor Mayer-Schönberger)译者周涛《大数据时代:生活、工作与思维的大变革》、〔美〕克里斯托弗·苏达克译者余莉《数据新常态——如何赢得指数级增长的先机》、车品觉《决战...
  • 红火一时的数据分析走向了我们,纷纷称不分析数据企业将长久不了,可是究竟什么样的数据大数据呢,什么样的数据是最大的呢? 如果你没有接触过大数据,那么你就不知道大数据究竟有大,大到什么样的数据才能...

    大数据,什么是大数据呢?多大的数据叫大数据?红火一时的数据分析走向了我们,纷纷称不分析数据企业将长久不了,可是究竟什么样的数据才是大数据呢,什么样的数据才是最大的呢?

    如果你没有接触过大数据,那么你就不知道大数据究竟有多大,大到什么样的数据才能称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。

    大数据开发学习有一定难度,零基础入门首先要学习Java语言打基础,一般而言,Java学习SE、EE,需要约3个月的时间;然后进入大数据技术体系的学习,主要学习Hadoop、Spark、Storm等。

    什么是大数据 究竟多大才算是大数据

    大数据是什么?

    多大的数据叫大数据?

    很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。

    企业端(B端)数据近十万的级别,就可以称为大数据;个人端(C端)的大数据要达到千万级别。收集渠道没有特定要求,PC端、移动端或传统渠道都可以,重点要达到这样数量级的有效数据,形成数据服务即可。很有趣,大家可以看到2B和2C,两类大数据差了两个数量级。

    有些小公司,数据只有千到万级的规模,但经过收集分析,也能从中有针对性的总结出这一群体的原则,同样能指导企业进行一定程度的用户分析、获取或者是服务工作,但这并不是大数据,而是一般性的数据挖掘。

    刚刚天小妹分享的那个案例,说今年年初有个用50块本金摆地摊卖水果的中年人,他并不懂得大数据,但是他对水果的收成了若指掌:他知道哪个地方下了多少雨,水果的甜度会到多少,如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣群:458数字345数字782获取学习资源哪些地方的消费者会喜欢吃这个甜度的水果。卖到最后卖出了137家门店、4.7亿的年销售额。

    这确实是一种小的数据挖掘,但并不是数据分析。大数据分析虽然脱胎于此,但大数据面向的是更海量的一个数据,借助了更广义的知识数据库的分析方法。大部分的数据公司的数据来源是海量的,它的收集和分析,并不是局限于个体,而是以一个非常非常广泛的群体为对象展开的。

    大数据的产业链是怎样的?

    我在接受采访的时候,依照大数据公司在产业链的上下游关系,提出把它们分成三种不同类别:

    大数据采集公司

    所谓“找数据”,内部可以再分两种:

    在自身正常运营的过程中就能产生大量数据源;

    通过跟电信运营商、金融企业合作,获取数据源。

    大数据分析公司

    这一类公司,基本上都有自己的套模型,但大部分数据库模型源于相同的几个机理,包括统计学模型、深度学习算法等等。也基于美国IBM、cloudera公司开发的应用型分析模块等等。

    大数据销售公司

    虽然说是卖数据,但出售的并不是单一数据,而是基于数据的全套解决方案,比如精准营销等等。

    这三类公司是如何协作,并把大数据作用于我们的生活呢?最容易理解的就是现在在微信朋友圈上投放的广告。

    腾讯在把广告推广给每个用户的时候,都已经对用户做过精准的分析。通过收集人们在微信上使用习惯,进而分析用户的消费能力、消费习惯,形成一套精准营销方案后,给广告商生成一些定向的广告。

    比如说,兰蔻的广告就从来不会推广给男性用户、豪车广告也不会推给应届毕业生。整个的微信广告体系都用到了大数据的分析模式,大家普遍反馈,在腾讯上投放的广告比网易、新浪等平台上投放的广告转化率高,正是得益于腾讯的大数据基础。

    大数据公司的投资价值

    如何理解大数据的投资价值?

    大数据如今这么火,其商业价值显而易见,但是能真正兑现的人并不多。

    要兑现大数据的商业价值,第一个要求,就是达到大数据的数据量级。那么目前,在数据量上最有优势是BAT三家。在PC时代,百度在数据上的优势非常强,但到移动时代,腾讯和阿里实现了反超。

    腾讯有微信、QQ,拿到了移动端数据生成量的九成;阿里利用它的消费数据资源,更有垂直性。那么对于中小企业、创业企业而言,兑现商业价值的重点就变成了,如何在自身规模较小的时候,利用别人的大数据资源为自己的创业更好的服务。这是需要深层次判断和挖掘的。

    所以,对于数据相关的公司,在投资判断的时候,不单是看现有业务的发展,更重要的是在他不断的发展的过程中,能不能积累有效数据、积累高准确性的数据,实现数据的实时更新性。这样的企业才能够更好地建立起竞争壁垒。

    比如,在开发者服务领域,比如talkingdata极光等等,我们复星昆仲在看项目时非常看重的一点,就是现在项目所经营的业务是单一为开发者提供服务?还是在服务之余,给自己的积累有效数据,形成长期壁垒?

    2B是大数据行业的突破口

    我之前有提到BAT对大数据收集是垄断性的,创业企业想要在C端达到海量数据(千万级甚至上亿的C端用户)非常难。目前,国内月活真正过亿的app只有15个,渗透率前10的app都是BAT所控制的,比如微信、QQ、淘宝、UC浏览器等。如果绕开BAT,能拥有C端海量数据的,就只有相对传统的电信业、金融业等等。

    可见,如果想投资大数据领域的公司,从C端下手难度很高。所以,我觉得在如果想在大数据行业布局,2B领域才是关键:一方面2B发展较晚,BAT还没有形成垄断;第二,开发门槛相对较高的;第三,数据量需求量相对较少,达到十万级别就可以为大数据的分析服务,所以如果想在大数据领域进行投资,要关注的主要领域是2B领域。

    在2B领域,有三个不同的类别:

    第一类,是B2B交易平台;目前的趋势,基本上是行业垂直领域的电子商务交易平台,核心竞争力就是打破买卖双方的信息不对称、不透明。所以这种领域公司的关键点并不是记录交易量,而是每一个有效的数据信息。在这个领域,我们投资过惠民网,主要服务于中小商超和其供货商的交易平台,再比如各种“找”系列项目等等。

    第二类,是现在很火的企业服务,以SaaS为主;比如客户管理的CRM、人力板块的HRM等等。他们在得到用户许可并保证数据安全的前提下,通过服务大量的企业来积累企业用户,和企业员工数据。比如理才网等等。

    第三类,是针对于开发者的服务;云存储、运行数据的统计推送以及app内的即时通信等。

    复星昆仲主要是在这三类的2B项目当中的进行投资,因为这些项目的2B业务模式可以有效积累大数据。这就是为什么复星同时关注大数据和2B领域的企业服务——因为在2B领域的企业服务,能够找到最好最有效的大数据。

    2B行业的未来投资标的

    如果我们预测一下这个行业的未来,我有以下几个观点。

    拥有丰富大数据源的企业,会成为整个行业内最炙手可热的投资标的。

    在大数据行业里,分析算法上的差别,造成的分析结果准确性、实用性的差异是93分和95分的区别。而因数据源质量造成的差别,是60分和90分的不同。特别是,一个不断更新的大数据,是能够验证这个算法准确性并不断优化大数据分析结果的有效途径。

    先行绑定最急需数据的需求方的项目,将获得胜利。

    目前,在大数据领域最愿意买单的基本都是金融领域的客户,银行、保险公司等等。他们要对用户进行多方位的分析和服务,所以购买意愿非常强。下一层,是新兴的互联网公司,为了更精准的获取用户、提高转化率,也比较愿意买单,比如说像新美大等等。下一步,可能会过渡到消费品行业当中去。

    基于大数据的那些商机

    智能硬件和人工智能的收获期还很漫长

    大数据和智能硬件相结合的模式,其实目前还很有挑战性,最主要的原因还是出在大数据的数量级上。目前智能硬件的出货量远不能匹配大数据所需的数量级。目前,国内出货量最大的是小米手环,第二是360儿童卫士。剩下的智能硬件出货量,往往在十几万到几十万就是比较好的量级。这跟C端大数据千万、亿级的要求还相差百倍呢。

    人工智能领域相对好一些,属于如日方升的情况。在海外的谷歌、亚马逊、软银,已经在投资一些投资标的,但是依然是一些概念领域的项目,不是立即可以商业化的服务。包括谷歌的无人车,就算已经能够积累了上百万英里的安全驾驶里程,但要应用还是有一定过程。国内也有少数的天使、早期机构,已经看好这个领域开始投资,但它的开花结果期那可能还要至少再等五年。

    所以,这个领域的投资要有一定耐心,目前比较有希望兑现的领域,包括语音语义识别、AR/VR、无人机等。

    SaaS类项目凭什么火?

    很多人其实不明白SaaS模式和传统的软件服务到底有什么区别,为什么说它是一个基于大数据而兴起的行业呢?

    SaaS和传统软件服务,中间有非常多的区别。最基础的区别,就是他们整个架构是不同的:SaaS是建立在公有云上的,标准化的模块服务,数据也储存在SaaS的公有云平台上。而传统的软件服务基本上是部署在局域网内的。这种架构上的区别决定所有的其他区别。

    比如,因为SaaS架构在云端,而且秉承标准化、普适化原则,所以,实施过程非常快。至少,实施前的现场搭建工作要少很多,那么获取用户也相应的加快。能传统模式要很长时间才能累计几百个客户,而SaaS模式可以在短时间内累积上千、上万的客户都不难。

    再比如,付费模式上的不同,传统软件有前期实施费、每年更新的费用、专门的定制服务费用、故障解决费用等等。整体来讲,费用高、缴费繁复,往往只有大企业才消费的起。而SaaS一方面减少了初期部署成本、且系统和架构可以服务于多个用户。它的收费模式基本上,是收月费或者年费,一个月只有几百块,很多中小企业,都可以享受到服务。

    Q&A环节

    Q:小散参与大数据、AI的SaaS的投资是否可行呢?

    A:我觉得,目前小散想要参与这一领域投资的唯一途径,可能就是通过股权众筹。这些项目的行业门槛决定了,小散要想投这类项目最好还是通过专业性的众筹平台。

    具体而言,原因有几个方面:

    项目的门槛高。我们小散接触项目往往是通过自己的朋友圈子,但这类项目的创业者基本都是专业人员,我们的小散是接触不到的。

    这类项目对创始人的专业经验要求高,小散难以进行这种专业性的项目尽调。而专业的众筹平台,在把项目推广给各位于中小投资人之前,就已经对项目做过背景调查。实现对于小散投资实现一个保护。

    总而言之,这类项目行业门槛高,专业性要求高,小散想投资一定要找天使客这样负责任的众筹平台

    Q:大家都说我们现在处于互联网时代,您强调我们现在是数据信息时代。这怎么理解?

    A:我们现在就已经处在大数据信息时代,大数据和互联网移动互联网是不相冲突的,而且恰恰是互联网,特别是移动互联网的出现,使得可以有效采集的大数据大大提升,所以大数据时代是和移动互联网手挽手一起走过来的。

    什么是大数据,究竟多大的数据才能称之为大数据,你知道了吗,如果想要学习大数据技术,那就努力吧,在未来的路上,懂得分析数据,你才能掌握未来!

     

    展开全文
  • 没有接触过大数据的人,都很难清楚地知道,究竟大的数据量可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。 企业端(B端)数据近十万的级别,就可以称为大数据;...

    大数据是什么?多大的数据叫大数据?

    很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。

    企业端(B端)数据近十万的级别,就可以称为大数据;个人端(C端)的大数据要达到千万级别。收集渠道没有特定要求,PC端、移动端或传统渠道都可以,重点要达到这样数量级的有效数据,形成数据服务即可。很有趣,大家可以看到2B和2C,两类大数据差了两个数量级。

    有些小公司,数据只有千到万级的规模,但经过收集分析,也能从中有针对性的总结出这一群体的原则,同样能指导企业进行一定程度的用户分析、获取或者是服务工作,但这并不是大数据,而是一般性的数据挖掘。

     

     

     

     

     

    大数据的产业链是怎样的?

    大数据采集公司

    所谓“找数据”,内部可以再分两种:

    1).在自身正常运营的过程中就能产生大量数据源;

    2).通过跟电信运营商、金融企业合作,获取数据源。

    大数据分析公司

    这一类公司,基本上都有自己的套模型,但大部分数据库模型源于相同的几个机理,包括统计学模型、深度学习算法等等。也基于美国IBM、cloudera公司开发的应用型分析模块等等。

    大数据销售公司

    虽然说是卖数据,但出售的并不是单一数据,而是基于数据的全套解决方案,比如精准营销等等。

    这三类公司是如何协作,并把大数据作用于我们的生活呢?最容易理解的就是现在在微信朋友圈上投放的广告。

    腾讯在把广告推广给每个用户的时候,都已经对用户做过精准的分析。通过收集人们在微信上使用习惯,进而分析用户的消费能力、消费习惯,形成一套精准营销方案后,给广告商生成一些定向的广告。

    比如说,兰蔻的广告就从来不会推广给男性用户、豪车广告也不会推给应届毕业生。整个的微信广告体系都用到了大数据的分析模式,大家普遍反馈,在腾讯上投放的广告比网易、新浪等平台上投放的广告转化率高,正是得益于腾讯的大数据基础。

    如何理解大数据的投资价值?

    大数据如今这么火,其商业价值显而易见,但是能真正兑现的人并不多。

    要兑现大数据的商业价值,第一个要求,就是达到大数据的数据量级。那么目前,在数据量上最有优势是BAT三家。在PC时代,百度在数据上的优势非常强,但到移动时代,腾讯和阿里实现了反超。

    腾讯有微信、QQ,拿到了移动端数据生成量的九成;阿里利用它的消费数据资源,更有垂直性。那么对于中小企业、创业企业而言,兑现商业价值的重点就变成了,如何在自身规模较小的时候,利用别人的大数据资源为自己的创业更好的服务。这是需要深层次判断和挖掘的。

    所以,对于数据相关的公司,在投资判断的时候,不单是看现有业务的发展,更重要的是在他不断的发展的过程中,能不能积累有效数据、积累高准确性的数据,实现数据的实时更新性。这样的企业才能够更好地建立起竞争壁垒。

    比如,在开发者服务领域,比如talkingdata极光等等,我们复星昆仲在看项目时非常看重的一点,就是现在项目所经营的业务是单一为开发者提供服务?还是在服务之余,给自己的积累有效数据,形成长期壁垒?

    2B是大数据行业的突破口

    之前有提到BAT对大数据收集是垄断性的,创业企业想要在C端达到海量数据(千万级甚至上亿的C端用户)非常难。目前,国内月活真正过亿的app只有15个,渗透率前10的app都是BAT所控制的,比如微信、QQ、淘宝、UC浏览器等。如果绕开BAT,能拥有C端海量数据的,就只有相对传统的电信业、金融业等等。

    可见,如果想投资大数据领域的公司,从C端下手难度很高。所以,我觉得在如果想在大数据行业布局,2B领域才是关键:一方面2B发展较晚,BAT还没有形成垄断;第二,开发门槛相对较高的;第三,数据量需求量相对较少,达到十万级别就可以为大数据的分析服务,所以如果想在大数据领域进行投资,要关注的主要领域是2B领域。

    在2B领域,有三个不同的类别:

    第一类,是现在很火的企业服务,以SaaS为主;比如客户管理的CRM、人力板块的HRM等等。他们在得到用户许可并保证数据安全的前提下,通过服务大量的企业来积累企业用户,和企业员工数据。比如理才网等等。

    第二类,是B2B交易平台;目前的趋势,基本上是行业垂直领域的电子商务交易平台,核心竞争力就是打破买卖双方的信息不对称、不透明。所以这种领域公司的关键点并不是记录交易量,而是每一个有效的数据信息。在这个领域,我们投资过惠民网,主要服务于中小商超和其供货商的交易平台,再比如各种“找”系列项目等等。

    第三类,是针对于开发者的服务;云存储、运行数据的统计推送以及app内的即时通信等。

    复星昆仲主要是在这三类的2B项目当中的进行投资,因为这些项目的2B业务模式可以有效积累大数据。这就是为什么复星同时关注大数据和2B领域的企业服务——因为在2B领域的企业服务,能够找到最好最有效的大数据。

    2B行业的未来投资标

    如果我们预测一下这个行业的未来,我有以下几个观点。

    拥有丰富大数据源的企业,会成为整个行业内最炙手可热的投资标的。

    在大数据行业里,分析算法上的差别,造成的分析结果准确性、实用性的差异是93分和95分的区别。而因数据源质量造成的差别,是60分和90分的不同。特别是,一个不断更新的大数据,是能够验证这个算法准确性并不断优化大数据分析结果的有效途径。

    先行绑定最急需数据的需求方的项目,将获得胜利。

    目前,在大数据领域最愿意买单的基本都是金融领域的客户,银行、保险公司等等。他们要对用户进行多方位的分析和服务,所以购买意愿非常强。下一层,是新兴的互联网公司,为了更精准的获取用户、提高转化率,也比较愿意买单,比如说像新美大等等。下一步,可能会过渡到消费品行业当中去。

    基于大数据的那些商机

    SaaS类项目凭什么火?

    很多人其实不明白SaaS模式和传统的软件服务到底有什么区别,为什么说它是一个基于大数据而兴起的行业呢?

    SaaS和传统软件服务,中间有非常多的区别。最基础的区别,就是他们整个架构是不同的:SaaS是建立在公有云上的,标准化的模块服务,数据也储存在SaaS的公有云平台上。而传统的软件服务基本上是部署在局域网内的。这种架构上的区别决定所有的其他区别。

    比如,因为SaaS架构在云端,而且秉承标准化、普适化原则,所以,实施过程非常快。至少,实施前的现场搭建工作要少很多,那么获取用户也相应的加快。能传统模式要很长时间才能累计几百个客户,而SaaS模式可以在短时间内累积上千、上万的客户都不难。

    再比如,付费模式上的不同,传统软件有前期实施费、每年更新的费用、专门的定制服务费用、故障解决费用等等。整体来讲,费用高、缴费繁复,往往只有大企业才消费的起。而SaaS一方面减少了初期部署成本、且系统和架构可以服务于多个用户。它的收费模式基本上,是收月费或者年费,一个月只有几百块,很多中小企业,都可以享受到服务。

    智能硬件和人工智能的收获期还很漫长

    大数据和智能硬件相结合的模式,其实目前还很有挑战性,最主要的原因还是出在大数据的数量级上。目前智能硬件的出货量远不能匹配大数据所需的数量级。目前,国内出货量最大的是小米手环,第二是360儿童卫士。剩下的智能硬件出货量,往往在十几万到几十万就是比较好的量级。这跟C端大数据千万、亿级的要求还相差百倍呢。

    人工智能领域相对好一些,属于如日方升的情况。在海外的谷歌、亚马逊、软银,已经在投资一些投资标的,但是依然是一些概念领域的项目,不是立即可以商业化的服务。包括谷歌的无人车,就算已经能够积累了上百万英里的安全驾驶里程,但要应用还是有一定过程。国内也有少数的天使、早期机构,已经看好这个领域开始投资,但它的开花结果期那可能还要至少再等五年。

    所以,这个领域的投资要有一定耐心,目前比较有希望兑现的领域,包括语音语义识别、AR/VR、无人机等。

     

    展开全文
  • 读懂这三本书,才算真懂大数据(大数据时代+数据新常态+决战大数据).mobi
  • 大数据大算“大

    千次阅读 2019-02-25 11:08:48
    在数据“泛滥”的今天,人人都在提“大数据”,但大的数据才算“大”呢?如果盲目的强调“大”,结果只会被数据淹没,从而导致信息过量,最终对决策不仅没有帮助反而使人困惑、不知所措。今天,我们来谈一谈信息...

    在数据“泛滥”的今天,人人都在提“大数据”,但多大的数据才算“大”呢?如果盲目的强调“大”,结果只会被数据淹没,从而导致信息过量,最终对决策不仅没有帮助反而使人困惑、不知所措。今天,我们来谈一谈信息过量的问题。

     

    数据分析的目的

    我们对数据做分析的目的是将数据转化成信息,从而帮助人们更好的做决策。因此,决策的好坏与信息的质量密不可分。俗话说,从量变到质变。信息的质量一定程度取决于信息的数量。那么,科学的决策到底需要多少信息呢?是多多益善吗?

    互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群: 740041381就可以找到组织学习  欢迎进阶中和进想深入大数据的小伙伴加入

    来看一个例子:如果往桶里倒水,那么总有一个时刻,水满了会溢出来。如果用这桶水来灭火,则多余的水并没有起到作用,完全是浪费了。

    什么是信息过量

    信息过量是针对某个目标,提供过多且无用的信息。

     

    下面我们将用质量保证中普遍应用到的过程性能分析为例进行阐述。您经常在很多过程性能报告中会看到以下输出结果。

    表I

     

    一些分析报告甚至包含更多的统计量。这些信息对某些人很有吸引力,他们喜欢尽可能多的信息,但真正的专家会质疑需要这么多信息的必要性。提供过多信息的风险在于,用户会不知所措,困惑不已,且会错过性能分析结果中的重要部分。

     

    信息过量可以定义为在执行某项任务时,提供不必要的信息。以上列出的统计量可能确实很多,但它们真的有必要吗?它们的目的是什么?目的和目标是一致的吗?应该报道的最少信息量是什么?最多的信息量又是什么?遗憾的是,并没有公式可以计算出最优平衡量。每种情形要结合其自身特点具体分析,要考虑到方方面面。

     

    满足分析目标的信息量

    在统计学研究中,有个术语叫“充分性”。如果所给的样本中得出的其他统计量对于统计值提供不了更多信息,则该统计量是充分的。例如,样本均值是一个充分统计量。因为没有其他统计量可以提供关于平均数的更多信息了。

     

    这个原理可以部分应用于判断某个信息是否充分。任何多余的信息都是信息过量。在这种情况下,我们谈论的不是统计量,而是满足某个目标的信息,包括图。

     

    过程性能研究的目的是从生产不合格品的角度了解当前过程运作的有多好。满足这个目标,需要的最小信息量是多少?

     

    展开全文
  • 没有接触过大数据的人,都很难清楚地知道,究竟大的数据量可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。 企业端(B端)数据近十万的级别,就可以称为大数据;...
  • 没有接触过大数据的人,都很难清楚地知道,究竟大的数据量可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。 大数据是什么? 大的数据叫大数据? 很没有...
  • 红火一时的数据分析走向了我们,纷纷称不分析数据企业将长久不了,可是究竟什么样的数据大数据呢,什么样的数据是最大的呢? 如果你没有接触过大数据,那么你就不知道大数据究竟有大,大到什么样的数据才能...
  • 摘要:为了解决现阶段大数据分离痛点问题,华为云大数据推出重量级数据湖Catalog服务。
  • 这个复制可以在服务器端执行,但是由于它要等到集群内的复制完成后会完成,所以它所花费的时间与数据量成正比。 Rename 开销是最明显的问题,但最危险的是路径列表没有一致性保证。S3对象存储是弱一致性的,是异步...
  • 大数据中台

    千次阅读 多人点赞 2020-08-28 11:17:11
    数据中台最早是阿里提出的,但真正火起来是2018 年,我们能感受到行业文章谈论数据中台的越来越。大量的互联网、非互联网公司都开始建设数据中台。为什么很公司开始建设数据中台?尽管数据中台的文章很,但是...
  • 大数据是目前互联网流行的技术语言,处理大数据的编程语言比较有优势的也很,比如java、python、go、R语言、Hadoop等等,按道理来说每种编程语言都可以处理大数据,只是处理的规模不一样而且,但是现在比较受欢迎...
  • 大数据课程导论

    千次阅读 2021-02-25 14:34:22
    一、大数据课程导论 1. 大数据概念 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,大数据究竟是什么东西?有哪些相关技术...
  • 浅谈什么是大数据

    千次阅读 多人点赞 2021-12-24 09:20:52
    浅谈什么是大数据 有人可能发现了,我这个专栏写的就是大数据,所以我们一起来谈谈大数据大数据概念 百度百科:对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能...
  • 大数据简述

    2020-12-28 21:26:47
    从2009年开始“大数据成为互联网技术行业中的热门词汇。最早应用“大数据”的是世界著名的管理咨询公司麦肯锡公司,它看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研,...
  • 读懂这三本书,才算真懂大数据!(套装共3册) (如何读懂大数据主题系列
  • Hadoop大数据简介

    千次阅读 2020-12-01 14:53:11
    有句话说得好 :“ 大数据胜于好算法 。” 意思是说对于某些应用 (譬如根据以往的偏好来推荐电影和音乐),不论算法有牛 ,基于小数据的推荐效果往往都不如基于大量可用数据的 一般算法的推荐效果 。 我们遇到的...
  • 大数据时代,数据变成一种生成资料,其价值也提升到了新的高度。随着各行各业的数据化,使得数据逐步形成数据资产,利用大数据...当前越来越的企业管理决策都转变成以数据为驱动的大数据辅助决策。...............
  • ⑯方便用户获取疫情信息 百度依托“搜索+大数据”设个栏目 ⑰同程艺龙大数据助力疫情防控,小程序、APP均上线新型肺炎确诊同行程查询服务 ⑱马蜂窝发布春运返程大数据,疫情之下客流高峰下降明显 ⑲荣之联利用...
  • 基于大数据平台的毕业设计

    千次阅读 2021-11-04 09:28:40
    前言 最近有很多人问我,大数据专业有什么好的毕设项目,我就...这种选择的好处就是简单,网上模板。动手能力强的同学,直接去github上拉下来源码,稍微修改一下,一个毕业设计项目就完成了。动手能力弱的同学,也可
  • 解读主流大数据架构

    千次阅读 2021-05-29 08:48:13
    解读主流大数据架构 前几天读到白发川的一篇文章《对比解读五种主流大数据架构的数据分析能力》,文中详细总结了各类数据架构的应用以及原理。作为一名在数据仓库耕耘多年的技术人员,对于其中的一些技术细节...
  • 这年代,做数据的,没人不知道 Spark 是什么吧。作为最火的大数据计算引擎,现在基本上是各互联网大厂的标配了。比如,字节跳动基于 Spark 构建的数据仓库,服务了几乎所有的产品线,包...
  • 大数据大?

    2020-03-03 07:54:18
    人工智能和大数据,这二者经常同时出现在新闻联播里,这象征着某种平衡:大众对智能的追求促使人工智能快速发展,在视频监控、医疗等领域,人们又离不开大数据。学校里有文科和理科的划分,对应到电脑里就是大数据和...
  • 前言         前两天突然有个疑惑,大的数据量才算得上大数据, 后面还联想到现在的硬件存储资源的价格大概是多少? 详情可以点击这
  • 大数据面试130题

    千次阅读 2022-03-08 17:47:48
    大数据面试题总结一波,助力准备在年底跳槽寻找好工作的小伙伴们,只有度过笔试这一关才能在下面的关卡中大展宏图!Hadoop,Spark,Flink,数据仓库,10个技术面、100道面试题,为你的面试保驾护航。
  • 麦肯锡对于“大数据”的定义是:一种规模大到在获取、存储、管理、分析方面大大的超出了传统数据库软件工具能力范围的数据集合,具有4V特征,即Volumn(海量的规模)、Velocity(快速的流转)、Variety(多样的类型...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 42,016
精华内容 16,806
关键字:

多大数据才算大数据