精华内容
下载资源
问答
  • 当前世界上的数据量
    万次阅读 多人点赞
    2019-05-28 18:56:23

    注意:实验阶段的切勿使用个人账号进行刷数据,以免被视为作弊。

     

    截获请求负载信息

    运动世界的跑步规则,大家应该都很熟悉了,在选择目标距离后,在地图上回“随机”给出多个待检测点,而在这些点中,你必须要经过几个,路线随意,这样才完成了跑步评测的第一步。而在跑步结束后,软件还会计算你的跑步平均速度,如果偏差太大(过快或过慢)也不会记录成为有效成绩。

    分别对设置目标距离产生随机点上传数据三个请求进行了抓包,其结果如下:

    设置目标点 及 产生随机点

    POST http://gxapp.iydsj.com/api/v2/campus/901/get/1/distance/3 
    Host: gxapp.iydsj.com
    uid: 47881
    Accept: */*
    Authorization: Basic MTRwXBd3MjU1MzU6MTk5NzAyLjZXWGz=
    Proxy-Connection: keep-alive
    osType: 1
    appVersion: 1.2.0
    Accept-Language: zh-Hans-CN;q=1
    Accept-Encoding: gzip, deflate
    Content-Type: application/json
    DeviceId: FC139628-F5F6-423A-ADBF-C8E310FCB713
    CustomDeviceId: FC139628-F5F6-423A-ADBF-C8E310FCB713_iOS_sportsWorld_campus
    Content-Length: 45
    User-Agent: SWCampus/1.2.0 (iPhone; iOS 9.3.4; Scale/3.00)
    Connection: keep-alive
    json: {"longitude":103.991842,"latitude":30.766178}

    数据上传

    POST http://gxapp.iydsj.com/api/v2/users/47881/running_records/add 
    Host: gxapp.iydsj.com
    uid: 47881
    Accept: */*
    Authorization: Basic MTRwXBd3MjU1MzU6MTk5NzAyLjZXWGz=
    Proxy-Connection: keep-alive
    osType: 1
    appVersion: 1.2.0
    Accept-Language: zh-Hans-CN;q=1
    Accept-Encoding: gzip, deflate
    Content-Type: application/json
    DeviceId: FC139628-F5F6-423A-ADBF-C8E310FCB713
    CustomDeviceId: FC139628-F5F6-423A-ADBF-C8E310FCB713_iOS_sportsWorld_campus
    Content-Length: 89183
    User-Agent: SWCampus/1.2.0 (iPhone; iOS 9.3.4; Scale/3.00)
    Connection: keep-alive
    
    json: {"totalDis":3.24,"sportType":1,"speed":12,"fivePointJson":"{"useZip" : false, "fivePointJson" : "[{"flag":"1476258220000","isPass":true,"lat":"30.772452","lon":"103.988141","isFixed":"0"},
    {"flag":"1476258220000","isPass":true,"lat":"30.769404","lon":"103.991393","isFixed":"0"},{"flag": ...
    
    // 数据量过大,部分显示

    从格式上来看,很容易就能猜到这是个 Base64 转码方式。于是使用 Base64 解码方式将其转回,发现了具有如下规则:

    Basic [username]:[passward]

     

    进行跑步数据的处理及分析

    展示一个接近完整的跑步数据:

    {
    	"totalDis":3.24,
    	"sportType":1,
    	"speed":12,
    	"fivePointJson":
    		"{
    			"useZip" : false,  
    			"fivePointJson" : 				
                "[{
    				"flag":"1476258220000",
    				"isPass":true,
    				"lat":"30.772452",
    				"lon":"103.988141",
    				"isFixed":"0"
    			},
    			{
    				"flag":"1476258220000",
    				"isPass":true,
    				"lat":"30.769404",
    				"lon":"103.991393",
    				"isFixed":"0"
    			},
    			{
    				"flag":"1476258220000",
    				"isPass":true,
    				"lat":"30.768566",
    				"lon":"103.989982",
    				"isFixed":"0"
    			},	
    			{
    				"flag":"1476258220000",
    				"isPass":false,
    				"lat":"30.774981",
    				"lon":"104.000061",
    				"isFixed":"0"
    			},
    			{
    				"flag":"1476258220000",
    				"isPass":true,
    				"lat":"30.775152",
    				"lon":"103.990113",
    				"isFixed":"1"
    			}]"}",
    		"selDistance":3,
    		"unCompleteReason":4,
    		"allLocJson":
    		"{
    			"useZip" : false,  
    			"allLocJson" : 		
    			"[{
    				"speed":"0",
    				"id":"1",
    				"pointid":"1",
    				"radius":"65.000000",
    				"gaintime":"1476258220000",
    				"createtime":"",
    				"modifytime":"",
    				"type":"5",
    				"totaldis":"0",
    				"lat":"30.766170",
    				"flag":"1476258220000",
    				"avgspeed":"0",
    				"totaltime":"2.000000",
    				"lng":"103.991934",
    				"locationtype":"0"
    			},
    			....,
    			{
    				"speed":"0",
    				"id":"294",
    				"pointid":"294",
    				"radius":"10.000000",
    				"gaintime":"1476260686000",
    				"createtime":"",
    				"modifytime":"",
    				"type":"6",
    				"totaldis":"3241",
    				"lat":"30.766135",
    				"flag":"1476258220000",
    				"avgspeed":"0",
    				"totaltime":"2159.000000",
    				"lng":"103.992010",
    				"locationtype":"0"
    			}]
    		"}",
    	"complete":true,
    	"startTime":1476258220000,
    	"stopTime":1476260686000,
    	"totalTime":2466
    }

    这里仍然省略了大量的跑步打点数据,因为实在是太多。根据 json 数据每个属性的名字,我们能猜出个大概。而且在最外层数据中,我们发现 :totalDisspeed 、 fivePointJson 、 complete 、 startTime 、 stopTime 、 totalTime 这几个属性,对于所有的数据处理,都是在 client 端进行的,而后台的服务器仅仅提供了数据库的记录作用。

    经过几组数据的测试,我们发现在 server 端,仅仅对当次提交的 speed 数据进行判断,而 speed 数据居然没有经过 totalTime 和 totalDis 的验证而后两者仅仅是用来在 client 端起显示作用

    而对于 startTime 和 stopTime 两个属性,自然就能猜测到这是系统默认生成的当前时间的时间戳,从末尾的三个0就可以暴露出它设置成为毫秒级别。

    我们再来看 fivePointJson 这个属性的结构:

    "flag":"1476258220000",
    "isPass":true,
    "lat":"30.775152",
    "lon":"103.990113",
    "isFixed":"1"

    flag 自然也是时间戳,并且可以惊讶的发现他与 startTime 相同。而是否通过,仅仅使用了 isPass 这个布尔值来记录。实在是令人无语,于是我将数据保存下来,进行一次虚假提交,不出意外增加了一次新的记录。

    但是知道了这些,我们还是无法解决一个重要的问题,即跑步路径坐标。并且在我的提交尝试中,如果跑步路径的 json 格式提交错误,就会造成在 client 端无法显示跑步路线的问题。由于这个 app 使用了百度地图第三方sdk,所以我的第一想法是通过百度地图路径规划功能,从一条路径中取点进行构造 route。可是在构造的时候会遇到很多问题,比如取点的距离与跑步速度不统一等。

    而在 app 中会有一个 约跑功能 ,我们可以看见他人的跑步路线。因此我们打算采取偷梁换柱的方式,将他人跑步数据进行抓取,进而修改成自己此时的信息及时间戳即可。

    约跑请求

    {
    	"error":10000,
    	"message":"成功",
    	"data":
    	{
    		"roomInfoModel":
    		{
    			"beginTime":"2016-10-21 20:17:13",
    			"endTime":"2016-10-21 20:44:42",
    			"distance":3.0,
    			"locDesc":"人体机能实验室",
    			"finishNum":2
    		},
    		"roomersModelList":
    		[{
    			"finished":true,
    			"uid":57446,
    			"unid":901,
    			"icon":
    			"http://imgs.gxapp.iydsj.com/imgs/d30a0bff-1b20-4504-91b9-49ae65ada0a6.jpeg",
    			"sex":1,
    			"name":"杨xx",
    			"endTime":"2016-10-21 20:44:42",
    			"points":"{...}"
    		},
    		{
    			"finished":true,
    			"uid":57276,
    			"unid":901,
    			"icon":"http://imgs.gxapp.iydsj.com/imgs/null",
    			"sex":0,
    			"name":"李x",
    			"endTime":"2016-10-21 20:44:42",
    			"points":"{...}"
    		},...
    		]
    	}
    }

    为了保护隐私,我没有展示完整姓名。从获取到的数据中,我们发现 points 的格式与我们想要的跑步路线是完全一致的。因此我们对其进行数据解析,并处理时间戳生成我们所需要的数据。进而再将处理过后的数据进行整合,通过上传数据接口对个人用户进行认证,制造一条近乎完美的跑步数据出来。

    信息泄露问题

    我大概可以猜测一下,每个需要跑步的学校都会收到比以往多的多的垃圾短信。因为在约跑记录网络接口中,可以能够获取到每个用户的真实姓名、性别、头像,这是极其严重的个人信息泄露

    在斥责 app 制作公司的同时,也提醒广大童鞋多加注意个人隐私的保护,提高个人信息的安全意识,在有法却无严厉监管的环境下我们只有自我提高。(这实属无奈之举)

    更多相关内容
  • 通过在线工作平台(如Upwork和Amazon Mechanical Turk)工作的世界各地的人数不详。 我们结合从各种来源收集的数据,对全球此类在线工作者(也称为在线自由职业者)的数量进行数据驱动的评估。 我们的头条估计是,...
  • Basic-Python-Course:本课程包括Python的所有... 由于Python编程语言在不同领域和技术中的大量应用,因此它是当今世界上最流行的编程语言之一。 Python是数据科学,机器学习,深度学习,计算机视觉,区块链等的首选,
  • 什么是数据科学?

    2021-01-27 11:52:48
    数据科学是一个研究领域,涉及通过使用各种科学方法,算法和过程从大量数据中提取见解。它可以帮助您从原始数据中发现隐藏的模式。由于数理统计,数据分析和大数据的发展,数据科学这个术语已经出现。数据科学是一个...
  • 随着移动设备的使用不断上升,移动数据流量在未来10年内可望提高1,000倍(图1)。2013年,无线数据流量较一年提高了93.6%。预测,每个月的移动数据流量都将持续增长,到2016年将超过10艾(260)字节,其中亚洲...
  • 随着移动设备的使用不断上升,移动数据流量在未来10年内可望提高1,000倍(图1)。2013年,无线数据流量较一年提高了93.6%。专家预测,全球每个月的移动数据流量都将持续增长,到2016年将超过10艾(260)字节,...
  • Tableau可视化部分世界银行数据

    千次阅读 2021-11-11 16:16:06
    可视化World Bank部分数据 如何看中国 在我们的认知中,中国发展得很快,那么到底发展有多好呢?本次,我将通过数据的可视化来展现中国近年来的发展 通过GDP的增长看中国 可以看到,自 1960 年以来,中国 GDP ...

    可视化World Bank部分数据

    如何看中国

    • 在我们的认知中,中国发展得很快,那么到底发展有多好呢?本次,我将通过数据的可视化来展现中国近年来的发展

    通过GDP的增长看中国

    在这里插入图片描述

    • 可以看到,自 1960 年以来,中国 GDP 持续增长,尤其是在 2000 年之后,我国 GDP 飞速增长

    • 我采用与发达国家日本相比较的方式来更好地展现我国 GDP 增速的夸张

    在这里插入图片描述

    • 可见,我国 GDP 在 2010 年超越日本,并在后续的时间里遥遥领先

    通过科教看中国

    在这里插入图片描述

    • 可以看到,自有统计以来,也就是 1996 年之后,我国受过高等教育的人口占总人口比例,与国家对科研的投入占 GDP 的比例持续增加

    • 2013 年之后,我国受高等教育人口比例猛增,但之后科研经费投入比例增速减缓,较为反常,但总体发展向好

    • 我国目前已经提出 “科教兴国战略” , 可惜的是,世界银行并未搜集到我国 2018 年之后国家科研支出占 GDP 的比例

    • 通过贫困人口看中国

    在这里插入图片描述

    • 自 1990 年以来,中国贫困人口每年大幅度减少,十三年间减少了 65%,脱贫攻坚力度为世界之最

    通过贫富差距看中国

    在这里插入图片描述

    • 虽然我国 GDP 飞速发展,且已经完全消除贫困人口,但可见,贫富差距是历史遗留问题,我国贫富差距依旧很大,并且2016年相比于1990年贫富差距进一步扩大
    • 这是我国目前需要解决的一个重大问题

    通过环境保护看中国

    在这里插入图片描述

    • 可见,我国森林面积每年稳步增加,并呈线性增加趋势,这说明我国环境治理取得成效,从一定程度上反映了我国自然环境的改善
    • 在 GDP 和 工业大力发展的情况下,我国二氧化碳排放量逐年增加,但自2013年以来,二氧化碳排放量的增加速度明显放缓,甚至出现了下降,这说明我国正在控制二氧化碳的排放,秉持绿水青山就是金山银山的理念,有效地开展环境治理

    如何看世界

    通过 GDP 看世界

    • 数据缺少苏联/俄罗斯

    在这里插入图片描述

    • 可见,在 1960 年至 1970 年之间,美国在全世界一家独大(苏联数据没有)
    • 欧洲几个国家与日本在 1970 年也初露锋芒

    在这里插入图片描述

    • 与 1960—1970年间相比,世界格局变化不大,基本格局为一超多强
    • 可以看到的是,日本和欧洲各国的迅速崛起

    在这里插入图片描述

    • 这十年间可以看到欧洲各国,日本的增速缓慢与中国的迅速崛起

    在这里插入图片描述

    • 该图中,灰色的国家代表数据的缺失
    • 颜色深代表 GDP 高, 颜色浅,代表 GDP 低
    • 这张图里,我们可以看出哪些国家的数据没有统计出
    • 第一感受是中美两国的遥遥领先

    在这里插入图片描述

    在这里插入图片描述

    • 两张图配合起来看,能够直观地感受到当今以 GDP 为指标的世界格局。中美两国遥遥领先,日本,德国,英国,法国,印度等紧随其后

    通过森林面积看世界

    在这里插入图片描述

    • 可以看到的是,该图纵坐标是2020年世界各国的森林面积,横坐标是1990年世界各国的森林面积。
    • 巴西的森林面积在世界范围内遥遥领先
    • 在本图中,我添加了一条趋势线,该线的斜率大于1,也就是说,从大体上看,每个点的纵坐标都是大于横坐标的,也就是说,世界范围内的森林面积有所增加。
    • 同时可以看出,中国的数据点位于趋势线之上,且能够看出,中国的森林面积增长在世界范围内都是比较快的。

    通过预期寿命看世界

    在这里插入图片描述

    • 在现有数据中,我们绘制出上图

    • 在第一个图中,我们可以看出,当今世界不同国家人民预期寿命总体结构大致分为三类,且由外向内逐渐增大

    • 通过右边的拖动条,我们可以实现如下效果

    在这里插入图片描述

    在这里插入图片描述

    • 通过第二个图的辅助,我们可以得到各个国家更为详细,清晰的信息

      • 预期寿命最长的为日本,84.36岁,最短的为中非共和国,53.28岁。

    横向对比中国基建

    铁路总里程

    在这里插入图片描述

    • 本张图由条形堆叠图,扇形图,树状图组成
    • 可见,在这五个国家中美国铁路总里程遥遥领先,中国紧随其后。
    • 美国铁路里程相比于 2010 年有所减少
    • 其他国家有增有减,整体变化不大

    航空客运量

    在这里插入图片描述

    • 可见,全球航空客运量逐年稳步提升
    • 增幅较大的是中国和世界

    在这里插入图片描述

    • 可以确认的是,中国是毫无争议的第二大航空客运国

    信息通信产品出口量占产品总出口量的百分比

    在这里插入图片描述

    • 上图可见,世界与以上五国在该领域十年来变化不大,不同年份有升有降,总体保持稳定

    • 突出看下中国

    在这里插入图片描述

    • 可以看到,我国信息通信产品的出口占我国出口产品的比例保持在 25% 左右,最高接近 30%。这说明了,信息通信产品的出口是我国的主要出口方式之一,也反映了我国在信息通信领域的领先实力
    展开全文
  • 当今世界,公司的日常运营经常会生成TB级别的数据数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成,实时处理成为了许多机构...
  • 各个组织和机构竞相构建数据驱动的文化精神,同时也在数据驱动的应用程序开展了大量创新。这些应用程序重塑了我们生活的许多方面,从我们工作的方式到我们被医学诊疗的方式。然而,数据的价值还远没有得到充分利用...

    我们正处于数据变革的早期阶段。各个组织和机构竞相构建数据驱动的文化精神,同时也在数据驱动的应用程序上开展了大量创新。这些应用程序重塑了我们生活的许多方面,从我们工作的方式到我们被医学诊疗的方式。然而,数据的价值还远没有得到充分利用,创新的速度还可以大大提高。我们认为这其中遗失的关键拼图就是数据编排层。

    为了让应用程序高效地访问数据,应用往往需要重新发明轮子,这阻碍了当前的创新步伐。当一个工程师或科学家想要编写一个应用程序来解决问题时,他或她需要花费大量的精力让应用程序高效地访问数据,而不是专注于算法和应用程序的逻辑。这体现在许多场景中:例如,当开发人员希望将应用程序从内部环境迁移到云环境中,或者一个写过Apache Spark应用程序的数据科学家打算编写TensorFlow应用程序等等。事实上,每当应用程序框架、存储系统或部署环境(云或内部环境)发生更改时,开发人员就需要重新设计数据访问方式。独立扩展计算和存储的趋势、对象存储的兴起、混合云和多云的日益流行,这些都进一步加剧了数据访问方面的挑战。

    许多人试图通过创建新型的存储系统、先进的计算框架或全新的技术栈来解决与数据访问相关的挑战。然而,历史表明,每隔5到10年,就会出现另一批新的存储系统和计算框架,这并不能从根本上解决数据访问方面的挑战。以存储为例,每个新的存储系统都成为数据环境中的另一个数据筒仓。创建新应用程序或新栈的方法也是如此。

    在Alluxio中,我们认为,为了从根本上解决数据访问的挑战,数据世界需要全新一层,我们称之为“数据编排平台”,架构在计算框架和存储系统之间。数据编排平台跨存储系统将数据访问抽象出来,虚拟化所有数据,并通过具有全局命名空间的标准化API将数据呈现给数据驱动的应用程序。同时,它还应该具有缓存功能,以支持快速访问热数据。总之,数据编排平台为数据驱动的应用程序提供了数据可访问性、数据本地性和数据可伸缩性(https://www.alluxio.io/data-orchestration/)。
    在这里插入图片描述

    做一个类比,数据编排之于数据,就像容器编排之于容器一样。容器编排是一类技术,它使容器能够在任何环境中运行而不受正在运行的应用程序硬件的影响,并确保应用程序按预期运行。类似地,数据编排也是一种技术,它使应用程序的运行能够与计算无关、与存储无关和与云无关。
    现在,基于数据编排平台,应用程序开发人员就可以假设数据随时可以访问,而不需要关注数据驻留在何处或存储的特性如何,并将重点放在编写应用程序上。

    除了向应用程序开发人员授权外,数据编排平台还为基础设施工程师带来了巨大的价值。它通过在基础设施层为组织机构提供灵活性来避免被某一家供应商绑死。在不同的存储系统(包括云存储)之间进行转换、采用另一个应用程序框架,甚至采用一个混合或多云环境都是可行的,并且不会带来很大的开发成本。在以后的博客中,我们将从这些角度来详细地讨论数据编排的需求和影响。

    总之,我们认为,数据编排是数据世界中遗失的拼图。Alluxio是一个数据编排平台的实现,我们诚邀大家加入我们,共创未来!

    展开全文
  • 随着数据量的快速增长,关系数据库系统无法满足当前状态的要求。 本文针对Hadoop业务数据的可视化分析模型,从可视化平台,数据库和分析模型等方面对业务数据进行了分析。根据分析,将对Hive数据库进行脱机数据分析...
  • 下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们推动了整个领域的发展,毫无疑问,无论是在学术界还是还工业界,他(她)们都是一座座...

     在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们推动了整个领域的发展,毫无疑问,无论是在学术界还是还工业界,他(她)们都是一座座山头式的人物。他(她)们是我们这些从事大数据产业发展的榜样。他(她)们便是所谓的大师级人物。

    在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

     

      数以万计的数据从业者通过他(她)们的论文、博客、视频、讲义等进行学习与进步,并找到相应的应用场景解决方案。这些大师为人们解开了统计机器学习、神经网络以及深度学习的神秘。

     

      下面从三个类别对这25位大师进行简介,虽然这个分类可能并不那么恰当,但是可以加深读者对他(她)们的了解。

     

      科研学术界大师(Research Oriented Data Scientists)

     

      这些科学家全身心致力于在数据中发明新的算法或者模型,他(她)们更倾向于学术与科研界的创新与创造。

     

      工业界应用大师(Data Scientists Turned Entrepreneurs)

     

      这些科学家致力于将技术转变为生产力,应用数据技术去创造产品和服务。

     

      实践中的大师(Data Scientists in Action)

     

      显然,并不是说上面两类大师不是实践派。只是为了强调这类大师将数据科学引入到实践当中所作的贡献。

     

      Research Oriented Data Scientists: 科研学术界大师

     

      Geoffrey Hinton

    \

      只要是在机器学习届混的或者懂点机器学习的人们,抑或懂点神经网络的人们,相信都知道“Back Propagation“反向传播的鼎鼎大名。Hinton便是将BP算法应用到神经网络与深度学习中人员之一,并且是主导者(co-inventor). Hinton 提出了“Dark Knowledge”黑暗知识概念(“Dark Knowledge”这本书籍已经出版,亚马逊上面有卖,288RMB,可见其nb性),该概念是受小概率比率事件中的“大部分知识”对于训练与测试中的代价函数是没有影响的。Hinton在人工智能领域中无人不知无人不晓是因为其在人工神经网络(Artificial Neural Networks)中所作出的贡献。

     

      早在上世纪60年代,Hinton在高中时期,就有一个朋友告诉他,人脑的工作原理就想全息图一样。创建一个3D全息图,需要大量的记录入射光被物体多次反射的结果,然后将这些信息存储在一个庞大的数据库中。大脑存储信息的方式与全息图类似,大脑并非将记忆存储在一个特定的地方,而是砸整个神经网络里传播。从此,Hinton对神经网络深深得着迷。他在剑桥大学学习心理学期间,发现科学家们并没有真正理解人类大脑,人类大脑有数十亿个神经细胞,它们之间通过神经突触互相影响,形成极其复杂的相互联系,然而科学家们并不能解释这些具体的影响和联系。神经到底是如何进行学习以及计算的,对于Hinton,这些正是他所关心的问题。Hinton在爱丁堡大学获得了人工智能的博士学位,现为多伦多大学的特聘教授。在2012年获得了加拿大2012年基廉奖(Killam Prizes,Killam Prizes是有“加拿大诺贝尔奖”之称的国家最高科学奖)。在2013年,他加入Google,并带领一个AI团队,目前正进行着Google Brain项目。

     

      他和他的团队强力将“神经网络”从垂死边缘一步步带入到当今的研究与应用的热潮,变成了炙手可热的的学术界课题,将“深度学习”从边缘课题变成了Google等互联网巨头仰赖的核心技术。目前神经网络与深度学习已在自然语言处理、语音处理以及计算机视觉等领域中得到了空前广泛与成功地应用。越来越多的科学家从事神经网络与深度学习的研究工作。换句话说,深度学习是目前的主流,我们不再是极端分子了。

     

      Yann Lecun

    \

      Lecun在多伦多大学随Hinton读博士后,即他是Hinton的学生。他是另一个神经网络与深度学习大拿。他在皮埃尔玛丽居里大学(又称巴黎第六大学, Université Pierre et Marie Curie (Paris VI))获得了计算机科学博士学位,期间提出后向传播算法。他如今在Facebook带领团队进行人工智能工作,即他是Facebook人工智能实验室的负责人。他在纽约大学任职了12年,是纽约大学的终身教授,是纽约大学数据科学中心的负责人。为了表彰他在深度学习领域里所作出的贡献,IEEE计算机学会颁给他着名的“神经网络先锋奖”,在2014年北京计算智能大会上授予。在加盟Facebook之前,Lecun已在贝尔实验室工作超过20年,期间他开发了一套能够识别手写数字的系统,叫作LeNet,用到了卷积神经网络(Cnvolutional Neural Networks, CNN),已开源。他研发了很多关于深度学习的项目,并且拥有14项相关的美国专利。他甚至开发了一种开源的面向对象编程语言Lush,比Matlab功能还要强大,并且也是一位Lisp高手。他在机器学习、深度学习、计算机视觉、计算神经科学领域进行了深度研究。

     

      Yoshua Bengio

    \

      Bengio是另外一位机器学习、深度学习的大拿。他在麦吉尔大学获得博士学位。他是ApSTAT技术的发起人与研发大牛。他也是蒙特利尔大学(Université de Montréal)的终身教授,任教超过22年,是机器学习实验室(MILA)的负责人,是CIFAR项目的负责人之一,负责神经计算和自适应感知器等方面。又是加拿大统计学习算法学会的主席,并且是NSERC-Ubisoft主席以及其它。在蒙特利尔大学任教之前,他是AT&T & MIT的一名机器学习研究员。他的主要贡献在于深度学习与人工智能等领域。

     

      Jurgen Schmidhuber

    \

      他致力于构建一个自完善的人工智能机器。他曾任职于南加州大学,现任于卡内基梅隆大学语言技术研究所。他是着名的自然语言处理学者与专家,是国际计算语言协会(ACL)的首批Fellow,曾任ACL2001年主席。他主要的研究工作是机器学习、RNN(Recurrent Neural Networks,递归神经网络)、深度学习、计算机视觉以及自然语言处理等。他早机器翻译、自动文摘、自动问答、文本理解等领域作出了杰出的贡献。他自述目前自己最感兴趣的两个方向是语言计算机理解:计算机对一篇整体的文本而不是对一个个句子进行孤立的理解,这中间需要进行指代消解、实体解析和实体链接等很多工作。另一个是社会媒体,他目的并不是研究连接网络的拓扑结构,而是研究流经网络的海量的实时化的内容,从而发现人的性格、角色和特长等。他的研究已广泛应用于Google、Microsoft、IBM、Baidu、Facebook、Twitter等公司,特别是在递归神经网络中作出的贡献,如广泛使用的LSTM(Long Short-Term Memory,长短时记忆)与最新的据说胜过LSTM的CW-RNN(Clockwork RNN,时钟驱动递归神经网络)。他已经发表了333篇论文,有7篇最佳论文。获得了2013年国际神经网络社会(International Neural Networks Society)的Helmholtz奖(亥姆霍兹奖),并获得2016年该会议的先锋奖。

     

      Alex “Sandy” Pentland

    \

      在过去的29年时间中,Perntland都任职于MIT(麻省理工大学)的教授。在这期间,他创建多个公司,如IDcubed.org、Sense Networks、Cogito Health、 Ginger.io等。根据他所取得的成就,福布斯(Forbes)称他是世界上最有力量的数据科学家(the ‘World’s Most Powerful Data Scientist’ )。他也被任命为多个跨国公司(MNCs)的顾问(an advisor),如Nissan、Motorola、HBR、Telefonica等。他的主要兴趣在机器学习、人工智能与人类计算(Human computing)等领域。

     

      Peter Norvig

    \

      Norvig目前任职于Google。在此之前,他在NASA工作了六年,担任计算科学部门的负责人,期间获得了NASA杰出贡献奖(Exceptional Achievement Award)。是ACM、AAAI等的Fellow。他在加利福尼亚大学伯克利分校(University of California, Berkeley)获得了计算机科学博士学位。他的兴趣在于人工智能(AI),自然语言处理(NLP)和机器学习等领域。

     

      Corinna Cortes

    \

      Cortes目前是google的研究员。她在哥本哈根大学(University of Copenhagen)获得物理学理学硕士,并加入贝尔实验室(AT&T Bell Labs),在此工作超过十年。并在罗切斯特大学(University of Rochester)获得了计算机科学博士学位。她的研究主要在人工智能、机器学习、自然科学通论、算法与理论等方面。并且她是一位拥有两个孩子的妈,可谓是人生赢家。

     

      Micheal I Jordan

    \

      Jordan是加利福尼亚大学伯克利分校电子工程系和计算科学系陈丕宏(Pehong Chen)特聘教授(Distinguished Professor)和(UC Berkeley)统计学系的特聘教授。他近些年的研究工作主要集中在无参数贝叶斯分析、概率图模型、谱方法、核方法以及信号处理中的应用等方面。其中,他便是聚类算法中广泛使用的基于规范切(Normalized cut)谱聚类算法提出者之一。他获得了多个举足轻重的奖项,如数理统计学会(Institute of Mathematical Statistics ,IMS)授予的Neyman Lecturer 和Medallion Lecturer。他获得了加利福尼亚大学伯克利分校的认知科学博士学位,并且是麻省理工大学(MIT)的教授。

     

      Data Scientists Turned Entrepreneur 工业界应用大师

     

      Andrew Ng

    \

      Andrew Ng中文名为吴恩达,他和Daphne Koller共同创建Coursera(在线教育平台)这一流大学在线课程平台。他2014年5月16日加盟百度,成为百度首席科学家,带领百度大脑计划项目,负责百度研究院,开展深度学习和大数据与人工智能可伸缩性方法。他又是斯坦福大学(Stanford University)的计算机科学系与电子工程系的副教授,人工智能实验室主任。他于1997年获得了卡内基梅隆大学(CMU)的计算机科学学士学位,1998年获得了麻省理工大学(MIT)硕士学位,并于2002年获得加州大学(加利福尼亚大学的简称)伯克利分校(UC Berkeley)的博士学位,并从这一年开始在斯坦福大学任教。

     

      在加盟百度之前,他已经在google工作了几年,在XLab团队开发无人驾驶汽车和谷歌眼镜等项目,并与其他google工程师合作建立了全球最大的人工神经网络,名为Google Brain(Baidu Brain就是模仿它),对于普通数据从业者最熟悉的莫过于斯坦福大学机器学习公开课(该课是多少机器学习从业者入门的课程,其中我也是)以及使用利用团队所开发的人工神经网络通过观看一周YouTube视频,自主学习与自动识别哪些是关于猫的视频。他是人工智能和机器学习领域国际上最权威的学者之一。他2007年获得了斯隆奖(Sloan Fellowship),2008年入选“the MIT Technology Review TR35”,即《麻省理工科技创业》杂志评选出的科技创新35俊杰,以及计算机思维奖(Computers and Thought Award),并在2013年入选《Time》杂志年度全球最有影响力的100人之一,共16位科技界人物。他的主要兴趣领域在机器学习、深度学习、机器人、人工智能、计算机视觉等方面。

     

      ps:为啥看起来像亚洲人,因为他父亲是一名香港医生,即他是华裔。

     

      Daphne Koller

    \

      Koller也是在线教育平台Coursera的负责人和共同发起人之一。她在耶路撒冷希伯来大学(The Hebrew University of Jerusalem)攻读学术与硕士学位,在斯坦福大学获得计算机科学博士学位,在加州大学伯克利分校攻读博士后。现为斯坦福大学教授。在攻读博士期间,获得了很多奖项,如杰出青年科学家奖(ONR Young Investigator Award)、ACM Infosys 基金(ACM Infosys由Infosys公司创立于2007年8月。旨在奖励在计算机科学界做出杰出贡献并有深远影响的人才)、2001IJCAI计算机和思维奖(Computers and Thought Award)、麦克阿瑟奖(MacArthur Foundatin Fellowship,俗称“天才奖”,被视为美国跨领域最高奖项之一)。她已在斯坦福大学任职了18年。她的主要兴趣领域是机器学习、人工智能与模式识别等。

     

      Hilary Mason

    \
    \

      Mason是快速前进实验室(Fast Forward Labs)的发起人,也是hackNY.org与DataGotham的联合创始人。在此之前,她在Bitly担任首席科学家,和强生威尔士大学(Johnson & Wales University)的助理教授。她在2011年进入Fortune(财富杂志)评出的40岁之下的财富前40(Fortune 40 under 40)与克雷格财富40周岁前40(Craig’s 40 under Fort),并获得2012年TechFellow Engineering Leadership Award。她的主要兴趣领域在机器学习、数据挖掘与Python。

     

      Sebastian Thrun

    \

      Thrun是Udacity的创始人与CEO。在此之前,他创建了Google X(Google X秘密实验室是Google最神秘的一个部门,探索前沿科学技术与未来,这里汇聚了其它高科技公司、各大高校和科研院所挖过来的顶级专家,可能是梦想实现之地,但是也有可能会失败)并作为副总裁(Vice President,VP)在Google工作了7年,并在斯坦福大学担任研究教授(Research Professor)。他旨在大众化教育,让每个人都有机会学习世界各地的课程。他的梦想是让世界上每个人接受到更好的教育是这个世界更加美好。他的主要研究领域是机器学习与人工智能。

     

      Jeff Hammerbacher

    \

      Hammerbacher追随DJ Patil,并提出数据科学家(Data Scientist)这个词。他是Cloudera项目的创始人以及首席科学家。在此之前,他在Facebook带领数据团队,该团队负责Facebook的统计与机器学习的应用项目。他也是西奈山医学院(Mount Sinai School of Medicine)的助理教授。他在哈佛大学(Harvard University)获得数学学士学位。他的主要兴趣在大数据、机器学习、Hadoop以及数据挖掘等领域。

     

      Jeremy Achin

    \

      Achin 是Data Robot(数据机器人)的联合创始人。DataRobot 聚集着世界上最好的数据科学家们,已经成为了美国成长最快的数据公司。在此之前,他是Travelers Insurance的研究与建模的领导者。他是Kaggle竞赛(机器学习领域的一个竞赛),他的安全系数模型排名top10%。他的主要兴趣领域是预测模型、数据挖掘与机器学习等。

     

      Carla Gentry

    \

      Gentry是Analytical Solution的一名数据科学家和创建者。她在纳西大学(University of Tennessee)获得数学与经济学硕士学位。她已在世界财富500强公司工作超过15年,如Hershey、 Kraft、Johnson & Johnson、Kellogg’s 和 Firestone。她是Twitter上大数据社区的粉最多的大V之一,被信息周刊(Information Week)评为Twitter上的十位最有影响力的IT领导者之一(“10 IT Leaders to Follow on Twitter”)。

     

      Data Scientists in Action 实践中的大师
     

      DJ Patil

    \

      Patil现担任白宫首席数据科学家和制定数据策略的副首席技术官,奥巴马亲自招募他的。在此之前,他担任Salesforce.com的RelateIQ产品的副总裁(Vice President,VP),是LindedIn的数据产品负责人和首席科学家,他的父亲是一名风险投资家(venture capitalist ,VC)和Cirrus Logic的创始人。他在多个公司工作过,如LinkedIn、Greylock Partners、Skype、PayPal 和 eBay。他曾一度在美国国防部工作,使用社会网络分析来预测新的威胁。他早年在迪安萨学院( De Anza College)学习,并在加州大学圣地亚哥分校(University of California, San Diego,)获得数学学士以及在马里兰大学帕克学院(University of Maryland College Park)获得应用数学博士学位。他曾使用美国国家海洋和大气管理局(NOAA)公开的数据集来提高天气预测的准确性。他和Thomas H. Davenport一起发表了一篇哈佛商业评论性文章(HBR)– “Data Scientist: The Sexiest Job of 21st Century”。他获得了很多专利。他当选为2014年世界经济论坛全球青年领袖。

     

      Adam Coates

    \

      Coates在斯坦福大学获得计算科学博士学位。目前,他被任命为百度硅谷人工智能实验室的高级主管(Senior Director at Baidu Silicon Valley AI Lab)。他的研究兴趣主要是机器学习、深度学习、控制和机器人(Control & Robotics)。

     

      Monica Rogati

    \

      Rogati在新墨西哥大学(The University of New Mexico,UNM)获得计算机科学学士学位,在卡内基梅隆大学(Carnegie Mellon University,CMU)获得计算机科学硕士与博士学位。她现为Insight Data Science的数据科学顾问。在此之前,她在LinkedIn工作,担任高级数据科学家。以及在Jaw Bone担任副总裁(VP),并负责多个职位的工作。她的目标是将数据转化为产品以及可行的解决方案(actionable insights)。她的主要兴趣领域在机器学习、文本挖掘(Text Mining)、推荐系统(Recommender Systems)等。

     

      Oliver Grisel

    \

      相信大家都听说过Scikit-learn 这个非常流行与广为人知的基于Python的机器学习开源库,目前最新版本为0.16,该机器学习库包括分类、回归、聚类、降维、模型选择以及数据预处理等模块。(PS:什么,你不知道这个开源库,好吧,回去好好学习吧)。Grisel便是这个开源项目的主要负责人之一。他主要负责该项目的Talk与视频教程(talks and tutorial sessions )和预测模块。他目前任职于Inria Parietal的软件工程师职位,主要负责提升Scikit-learn和其它工具库的效率等方面。他获得伦敦帝国理工学院(Imperial College of London)的先进计算硕士学位。他对将机器学习应用到自然语言处理和知识提取特别感兴趣。

     

      Owen Zhang

    \

      Zhang目前担任Data Robot的首席产品官(Chief Product Officer)。他是Kaggle竞赛目前世界上排名第一。并多次获得了亚军。在任职Data Robot之前,他在AIG(美国国际集团)担任副总裁,在Travelers Insurance担任科学家和高级主管、分析师和研究员。他在多伦多大学(University of Toronto)获得硕士学位。他的主要兴趣领域是预测模型、数据挖掘等。

     

      Sergey Yurgenson

    \

      Yurgenson目前在Data Robot担任数据科学家。在此之前,他是哈佛大学医药学院(Harvard Medical School)的一名研究教授,已在此工作了13年。他开始是一名物理学家,在圣彼得堡国立大学(St. Petersburg State University)获得了物理学博士学位。后来开始对分析学产生浓厚的兴趣,并不断进行数据研究。他是2012年十位数据科学家之一,目前排名世界第16位。到目前为止,Yurgenson以及赢得了几次Kaggle竞赛的冠军。他酷爱去解决具有挑战性的问题,并提出创新与非传统的解决方案。

     

      Stanislav Semenov

    \

      Semenov在Kaggle竞赛中排名世界第三。他已经获得了多个比赛的冠军,包括奥拓集团产品分类挑战赛(Otto Group Product Classification Challenge),目前是一名数据科学家顾问。另外,他是Yandex学院的一名数据分析教授。他在俄罗斯国家研究大学(National Research University (Russia))获得了应用数学与信息学的硕士学位。

     

      Gilberto Titericz Jr.

    \

      Titericz是一名电子工程师,但是他又是一位数据科学家,并在Kaggle举办的机器学习与数据挖掘竞赛中排名世界第二。目前,他任职于巴西石油公司Petrobras,担任自动化工程师。在此之前,他曾在多个跨国公司(MNCs)内工作,如西门子(Siemens)、诺基亚(Nokia)等。在从事8年电子信息工作后,在2008年,他发现他最大的兴趣是数据科学,从此以后,一直从事数据科学的工作与研究。

     

      Kirk Borne

    \
    \

      Borne目前担任博思艾伦(Booz Allen Hamilton)公司的高级数据科学家。他不仅仅是一名数据科学家,而且还是一名天体物理学家和空间科学家(Astrophysicist and Space Scientist)。在2014年被评为IBM大数据与分析英雄。他还在Ted Talk中开设了“大数据,小世界”(Big Data,Small World)课程。除了任职于博思艾伦,他还是很多其它公司的顾问委员会成员。他在加州理工学院(California Institute of Technology)获得了天体物理学博士学位。

     

      Doug Cutting

    \

      在大规模计算圈与数据挖掘与机器学习从业者与研究者中,我相信Hadoop是无人不知无人不晓的吧,Doug便是Hadoop之父,也是Apache Lucene、Nutch、Hadoop、Avro等开源项目的发起者与这些项目存在的原因。目前,其在Cloudera担任首席架构师。在加盟Cloudera之前,他在多个跨国公司(MNCs)工作,如Apple、Yahoo等。在过去14年中,他一直在Apache Software Foundation中工作。他是在斯坦福大学获得的学士学位。

     

      到这里,文中已经列举25位从事数据技术的数据科学家,他(她)们都是需要我们去仰慕的大牛级人物。从这些大拿中,可以发现他(她)们的共同特征,便是他(她)们都是从事着自己的爱好与梦想相关的工作,并一致坚持,特别是前面几位,像Geoffrey Hinton、Yann Lecun、Yoshua Bengio、Andrew Ng等这些从事神经网络与深度学习的研究和应用的大牛,他(她)们在以前被认为是一些极端分子,深度学习是边缘科学,在不断批判中与神经网络深度学习,他(她)们一直坚持下来,并最终得到了广泛的应用。

     

      这些大牛在一些顶级会议与期刊发表了大量的论文,如Science、NIPS、ICML、ACL、CVPR、ICLR、IJCAI、ICPR等。

     

      关于神经网络,在50年代末,F·Rosenblatt提出了“感知机”,它是一种多层次的神经网络。该项提出首次把人工神经网络从理论付诸到实践中。任何新生事物向前发展势必会遭到当前势力的打压,更何况,F·Rosenblatt时一个二流水的学者,并且不懂人情事故,到处张扬。那么新事物的出现肯定会挤掉一部分旧的事物,抢到一部分人的饭碗。于是符号逻辑学派的领军人物Minsky(据说是F·Rosenblatt的高中学长)就出来进行打压,在60年代中下发现感知机这玩意对逻辑学里面的一个基本问题XOR却无能无力。于是开始写文炮轰感知机。于是,60年代末开始,人工神经网络进入低潮。

     

      这之后,虽然有提出多层感知器结构(MLP),但是带来的网络的复杂性,从而没有有效的学习方法。80时代末,研究者提出了BP算法,给人工神经网络带来了新的希望,并且该方法在浅层神经网络模型的非常有效。于是掀起了基于统计模型的机器学习热潮,这个热潮一直持续到今天。在90年代,基本上是SVM的天下,而浅层人工神经网络复杂,学习速度慢,容易出错,理论不足的缺点导致其较为沉寂。

     

      2000年以来,随着互联网的高速发展,对大数据的智能化提出了更高的要求。随着大规模存储与计算工具的发明,浅层学习模型在互联网应用中取得了巨大成功,如搜素广告系统(Google的AdWords、百度的凤巢系统)的广告点击率CTR预估、网页搜素排序(如Yahoo、Google、B百度的搜索引擎)、垃圾邮件过滤系统、以及个性化推荐(Amazon等)。并且随着要求的提高,开始由浅层网络向深层网络研究。

     

      在2006年前,所尝试的深度网络架构的学习都失败了,从而导致ANN只有一层或两层隐藏层。2006年,受Hinton的革命性的深度信念网(Deep Belief Networks,DBNs)的引导,Hinton[1]、Bengio[2]、Ranzato与LeCun[3]的三篇文章将深度学习带入热潮,将其从边缘学科变为主流科学与技术。目前深度学习在计算机视觉、语音识别、自然语言处理等领域取得了巨大的成功。

     

      自2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据,就是脑神经系统的确具有丰富的层次结构。一个最着名的例子就是Hubel-Wiesel模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已显现出巨大能量。2011年以来,微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域十多年来最大的突破性进展。2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。在这一年,DNN还被应用于制药公司的DrugeActivity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。

     

      今天Google、微软、百度、Facebook、Twitter、Alibaba等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是因为他们都看到了在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。

     

      如果你热爱数据,你热爱数据科学,那么follow这些大牛。站在巨人的肩膀上学习!!!

    展开全文
  • 这张图表显示了上面讨论的四个数据测量的压缩率,加上各自重复数据所占的百分比这一系列的吞吐。 Gorilla压缩的吞吐从120到440Mb/S不等,平均速度为180MB/S。我们的Scalar实现算法最低的吞吐压缩速度...
  •  他说,“如今,全球每天将有50亿人次在访问互联网,这意味着,更多的用户所产生的数据量已经超过拥挤的网络的能力,这也是当今的数据中心必须改变的原因。”  波契特将会谈论对人们建立和设计未来的数据中心的...
  • php是世界上最好的语言是什么梗?

    千次阅读 2020-12-21 04:50:56
    1、php语言是什么?...其特点是具有公开的源代码,在程序设计与通用型语言,如C语言相似性较高,因此在操作过程中简单易懂,可操作性强。...如果数据量较大,PHP语言还可以拓宽链接面,与各种数据库...
  • 数据结构是计算机科学中最流行的词,可能紧随其后的是数据科学。 但是每个计算机科学专业的学生都必须了解数据结构,如果你打算在该领域从事长期职业,那么它是最重要的学习之一。 无论您是 ML 工程师、Web 开发人员...
  • 1.2数据模型(Data Model) 数据模型是一种模型,是对现实世界数据特征的抽象。数据模型是严格定义的一组概念的集合,这些概念精确地描述了系统的静态特性、动态特性和完整性约束条件。 数据模型的组成要素:数据...
  • 红火一时的数据分析走向了我们,纷纷称不分析数据企业将长久不了,可是究竟什么样的数据才是大数据呢,什么样的数据才是最大的呢? 如果你没有接触过大数据,那么你就不知道大数据究竟有多大,大到什么样的数据才能...
  • 数据仓库介绍

    千次阅读 2022-05-10 14:42:20
    数据仓库简介 什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为...
  • 3.尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理。  4.建立高效的索引 SQL语句的Select部分只写必要的列;尽量将In子查询重写为Exists子查询; 去除在谓词列编写的任何数学运算;尽...
  • 但是企业的信息涉及面广,各种应用系统常常不能有效地共享数据,不断的增加的安全威胁对数据中心的安全性提出了挑战,急剧增长的数据量使得既有存储容量和应用系统难以适应企的需要。因此建设高可靠、大容量的数据...
  • 数据治理】数据元、元数据、主数据、参考数据概述 数据元 什么是数据元: 《GB/T 19488.1 电子政务数据元第1部分:设计和管理规范》 里是这样定义的: 数据元(Data element):又称数据类型,通过定义、标识、...
  • 数据分析中的专业术语

    千次阅读 2019-11-28 19:48:06
    前言 大家看到这一篇博文的时候,肯定正在准备面试,或者在准备面试的路上。这里为大家带来一些数据分析的专业名词。供大家在面试交流的时候,...1、PV(Page View)页面浏览 指某段时间内访问网站或某一页面的...
  • 数据仓库完整版

    千次阅读 2020-08-21 14:22:58
    1.1 数据中台 2 数据库的"分家" 2.1 OLAP 和 OLTP简介 2.2 定义差别 2.3 定位差别 2.4 组成差别 2.5 技术差别 2.6 功能差别 2.7 OLTP数据库三范式介绍 2.8 OLAP典型架构 2.9 OLAP数据立方体(Data Cube) 3...
  • 数据分析实战

    千次阅读 2021-03-23 15:14:35
    数据分析实战数据分析基础数据分析全景图及修炼指南学习数据挖掘的最佳路径学数据分析要掌握哪些基本概念用户画像:标签化就是数据的抽象能力数据采集:如何自动化采集数据数据采集:如何用八爪鱼采集微博的“D&...
  • 数据中心节能.docx

    2022-07-10 22:18:52
    传统的数据中心里面,对PUE的影响,以2.3为例,变压器和电缆占0.1,照明0.1,如何在节能减排数据中心把PUE降下来,全世界都在从这里面想文章。 一个在空调方面,除了重大的设计的注意事项,基础也是要考量的。...
  • 目前,大量数据大量数据正在使用中。 与数据使用相关的技术与数据使用相关的技术非常庞大,并且广泛分布在所有使用中的计算小工具中。 手机,微型计算机和其他计算设备都利用了数据仓库技术。 该研究为在世界范围...
  • 本文收集汇总了可更新能源空间分布数据集,主要包括风能、太阳能,持续更新,欢迎补充!
  • 当今世界最NB的25位大数据科学家

    万次阅读 2015-09-20 16:57:14
    下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们推动了整个领域的发展,毫无疑问,无论是在学术界还是还工业界,他(她)们都是一座座...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 229,995
精华内容 91,998
关键字:

当前世界上的数据量