精华内容
下载资源
问答
  • 声明:本文转至Big大鸟的博客下,转载的名为《什么叫大数据 大数据的概念》一文,链接地址http://blog.csdn.net/qq_36738482/article/details/728235091、大数据定义 对于“大数据”(Big data)研究机构Gartner给...

    声明:本文转至Big大鸟的博客下,转载的名为《什么叫大数据 大数据的概念》一文,链接地址http://blog.csdn.net/qq_36738482/article/details/72823509


    1、大数据定义

     对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力

    的海量、高增长率和多样化的信息资产。

    大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

    从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算分布式处理分布式数据库云存储虚拟化技术

    随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

    大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库云计算平台、互联网和可扩展的存储系统。

    最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1024(2的十次方)来计算:

    8bit= 1Byte

    1KB= 1,024 Bytes

    1MB= 1,024 KB = 1,048,576 Bytes

    1GB= 1,024 MB = 1,048,576 KB

    1TB= 1,024 GB = 1,048,576 MB

    1PB= 1,024 TB = 1,048,576 GB

    1EB= 1,024 PB = 1,048,576 TB

    1ZB= 1,024 EB = 1,048,576 PB

    1YB= 1,024 ZB = 1,048,576 EB

    1BB= 1,024 YB = 1,048,576 ZB

    1NB= 1,024 BB = 1,048,576 YB

    1 DB = 1,024 NB = 1,048,576 BB

    1887–1890年

    赫尔曼·霍尔瑞斯美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。

    1935–1937年

    美国总统富兰克林·罗斯福利用社会保障法开展了美国政府最雄心勃勃的一项数据收集项目,IBM最终赢得竞标,即需要整理美国的2600万个员工和300万个雇主的记录。共和党总统候选人阿尔夫兰登scoffs嘲笑地说,“要整理如此繁多的职工档案,还必须而调用大规模的现场调查人员去核实那些信息不完整的人员记录。”

    1943年

    一家英国工厂为了破译二战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算。该计算机被命名为“巨人”,为了找出拦截信息中的潜在模式,它以每秒钟5000字符的速度读取纸卡——将原本需要耗费数周时间才能完成的工作量压缩到了几个小时。破译德国部队前方阵地的信息以后,帮助盟军成功登陆了诺曼底。

    1997年

    美国宇航局研究员迈克尔·考克斯和大卫·埃尔斯沃斯首次使用“大数据”这一术语来描述20世纪90年代的挑战:超级计算机生成大量的信息——在考克斯和埃尔斯沃斯按案例中,模拟飞机周围的气流——是不能被处理和可视化的。数据集通常之大,超出了主存储器本地磁盘,甚至远程磁盘的承载能力。”他们称之为“大数据问题。”

    2002年

    在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。一年后国会因担忧公民自由权而停止了这一项目。

    2004年

    9/11委员会呼吁反恐机构应统一组建“一个基于网络的信息共享系统”,以便能快处理应接不暇的数据。到2010年,美国国家安全局的30000名员工将拦截和存储17亿年电子邮件、电话和其它通讯日报。与此同时,零售商积累关于客户购物和个人习惯的大量数据,沃尔玛自吹已拥有一个容量为460字节的缓存器——比当时互联网上的数据量还要多一倍。

    2007–2008年

    随着社交网络的激增,技术博客和专业人士为“大数据” 概念注入新的生机。“当前世界范围内已有的一些其他工具将被大量数据和应用算法所取代”。《连线》的克里斯·安德森认为当时处于一个“理论终结时代”。一些政府机构和美国的顶尖计算机科学家声称,“应该深入参与大数据计算的开发和部署工作,因为它将直接有利于许多任务的实现。”

    2009年1月

    印度政府建立印度唯一的身份识别管理局,对12亿人的指纹、照片和虹膜进行扫描,并为每人分配12位的数字ID号码,将数据汇集到世界最大的生物识别数据库中。官员们说它将会起到提高政府的服务效率和减少腐败行为的作用,但批评者担心政府会针对个别人进行剖面分析并与分享这些人的私密生活细节。

    2009年5月

    大数据或成反恐分析利器美国总统巴拉克·奥巴马政府推出data.gov网站作为政府开放数据计划的部分举措。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。

    2009年7月

    应对全球金融危机,联合国秘书长潘基文承诺创建警报系统,抓住“实时数据带给贫穷国家经济危机的影响” 。联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。

    2011年2月

    扫描2亿年的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者。后来纽约时报配音这一刻为一个“大数据计算的胜利。”

    2012年3月

    美国政府报告要求每个联邦机构都要有一个“大数据”的策略,作为回应,奥巴马政府宣布一项耗资2亿美元的大数据研究与发展项目。国家卫生研究院将一套人类基因组项目的数据集存放在亚马逊的计算机云内,同时国防部也承诺要开发出可“从经验中进行学习”的“自主式”防御系统。中央情报局局长戴维·彼得雷乌斯将军在发帖讨论阿拉伯之春机构通过云计算收集和分析全球社会媒体信息之事时,不禁惊叹我们已经被自卸卡车倒进了“‘数字尘土”中。

    2012年7月

    美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。“数据不只是测量过程——它能给予我们启发,”她解释说。“一旦人们开始对某个问题实施测量时,就更倾向于采取行动来解决它们,因为没有人愿意排到名单的最低端去。”让大数据开始竞赛吧。

    HadoopMapReduce

    思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区,Hadoop已经是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数据集处理MapReduce架构。根据权威报告显示,许多企业都开始使用或者评估Hadoop技术来作为其大数据平台的标准。

    大数据NoSQL数据库

    我们生活的时代,相对稳定的数据库市场中还在出现一些新的技术,而且在未来几年,它们会发挥作用。事实上,NoSQL数据库在一个广义上派系基础上,其本身就包含了几种技术。总体而言,他们关注关系型数据库引擎的限制,如索引、流媒体和高访问量的网站服务。在这些领域,相较关系型数据库引擎,NoSQL的效率明显更高。

    内存分析

    在Gartner公司评选的2012年十大战略技术中,内存分析在个人消费电子设备以及其他嵌入式设备中的应用将会得到快速的发展。随着越来越多的价格低廉的内存用到数据中心中,如何利用这一优势对软件进行最大限度的优化成为关键的问题。内存分析以其实时、高性能的特性,成为大数据分析时代下的“新宠儿”。如何让大数据转化为最佳的洞察力,也许内存分析就是答案。大数据背景下,用户以及IT提供商应该将其视为长远发展的技术趋势。

    集成设备

    随着数据仓库设备(Data Warehouse Appliance)的出现,商业智能以及大数据分析的潜能也被激发出来,许多企业将利用数据仓库新技术的优势提升自身竞争力。集成设备将企业的数据仓库硬件软件整合在一起,提升查询性能、扩充存储空间并获得更多的分析功能,并能够提供同传统数据仓库系统一样的优势。在大数据时代,集成设备将成为企业应对数据挑战的一个重要利器。

    结构

    大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

    其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

    第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

    第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

    第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

    特点

    大数据大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。

    大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。

    从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。

    大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

    当前用于分析大数据的工具主要有开源与商用两个生态圈

    开源大数据生态圈:

    1、Hadoop HDFS、HadoopMapReduce, HbaseHive 渐次诞生,早期Hadoop生态圈逐步形成。

    2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

    3、NoSQL,membase、MongoDB

    商用大数据生态圈:

    1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。

    2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。

    3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。

    数据采集

    定义:利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

    特点和挑战:并发系数高。

    使用的产品:MySQLOracleHbaseRedis和 MongoDB等,并且这些产品的特点各不相同。

    统计分析

    大数据定义:将海量的来自前端的数据快速导入到一个集中的大型分布式数据库 或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据 进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。

    特点和挑战:导入数据量大,查询涉及的数据量大,查询请求多。

    使用的产品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和OracleExadata,除Hadoop以做离线分析为主之外,其他产品可做实时分析。

    挖掘数据

    定义:基于前面的查询数据进行数据挖掘,来满足高级别 的数据分析需求。

    特点和挑战:算法复杂,并且计算涉及的数据量和计算量都大。

    使用的产品:R,Hadoop Mahout

    SOA模型

    我们需要的是以数据为中心的SOA还是以SOA为中心的数据?答案取决于如何处理的SOA-数据关系的三个不同模型来管理大数据、云数据和数据层次结构。在越来越多的虚拟资源中,将这些模型之间所有类型的数据进行最优拟合是SOA所面临的巨大挑战之一。本文详细介绍了每个SOA模型管理数据的优点、选择和选项。

    SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后,架构模型描述了数据、数据管理服务和SOA组件之间的关系。

    SOA和数据企业的例子

    也许以极限情况为开始是理解SOA数据问题的最好方式:一个企业的数据需求完全可以由关系数据库管理系统(RDBMS)中的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用的数据库服务器和现有的查询服务连接到SOA组件(查询即服务,或QaaS)上。这种设计理念之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。QaaS服务模型不是机械地连接到存储器上;而是通过一个单一的架构——RDBMS(关系型数据库管理系统)。数据去重和完整性便于管理单一的架构。

    通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏数据结构因此将其抽象成一个查询服务并非易事,由于数据有多个来源和形式因此很少按序存储,并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到SOA的应用程序中时,关键是要定义三种模型中的最后一种模型,SOA数据关系中的架构模型。有两种选择:水平方向和垂直方向。

    大数据:“人工特征工程+线性模型”的尽头SOA和各类数据模型

    在水平集成数据模型中,数据收集隐蔽于一套抽象的数据服务器,该服务器有一个或多个接口连接到应用程序上,也提供所有的完整性和数据管理功能。组件虽不能直接访问数据,但作为一种即服务形式,就像他们在简单情况下的企业,其数据的要求是纯粹的RDBMS模型。应用程序组件基本上脱离了RDBMS与大数据之间数据管理的差异。尽管由于上述原因这种方法不能创建简单的RDBMS查询模型,但是它至少复制了我们上面提到的简单的RDBMS模型。

    垂直集成的数据模型以更多应用程序特定的方式连接到数据服务上,该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离,这种分离直接涉及到数据基础设施。在某些情况下,这些应用程序或许有可以直接访问存储/数据服务的SOA组件。为了提供更多统一的数据完整性和管理,管理服务器可以作为SOA组件来操作各种数据库系统,以数据库特定的方式执行常见的任务,如去重和完整性检查。这种方法更容易适应于遗留应用和数据结构, 但它在问数据何访方式上会破坏SOA即服务原则,也可能产生数据管理的一致性问题。

    SOA和水平数据模型

    毫无疑问水平模型更符合SOA原则,因为它更彻底地从SOA组件中抽象出了数据服务。不过,为了使其有效,有必要对非关系型数据库进行抽象定义和处理低效率与抽象有关的流程——SOA架构师知道除非小心的避免此类事情否则这将会成为不可逾越的障碍。

    水平的SOA数据策略已经开始应用于适用大数据的抽象数据。解决这个问题最常见的方法是MapReduce,可以应用于Hadoop形式的云构架。Hadoop以及类似的方法可以分发、管理和访问数据,然后集中查询这一分布式信息的相关结果。实际上,SOA组件应将MapReduce和类似数据分析功能作为一种查询功能应用。

    效率问题

    效率问题较为复杂。因为水平数据库模型可能是通过类似大多数SOA流程的信息服务总线来完成的,一个重要的步骤是要确保与该编排相关的开销额度保持在最低程度。这可以帮助减少与SOA相关的数据访问开销,但它不能克服存储系统本身的问题。因为这些存储系统已经通过水平模型脱离了SOA组件,很容易被忽略与延迟和数据传输量相关的问题,特别地,如果数据库是云分布的,那么使用他们就会产生可变的网络延迟

    上述问题的一个解决方案是现代分层存储模式。数据库不是磁盘,而是一组相互连接的高速缓存点,其存储于本地内存中,也可能转向固态硬盘,然后到本地磁盘,最后到云存储。缓存算法处理这些缓存点之间的活动,从而来平衡存储成本(同时也是平衡同步地更新成本)和性能。

    大数据应用领域对于大数据,它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这种方法可以产生大量的数据,但是如果汇总数据最后一分钟还存储在内存中,最后一小时存储在闪存中,最后一天存在磁盘上,那么控制应用程序所需的实际时间可以通过快速访问资源得到满足,然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。

    SOA都是抽象的,但当抽象隐藏了底层影响性能和响应时间的复杂性时,这种抽象的危险程度会提高。数据访问也是这样的,因此,SOA架构师需要认真地考虑抽象与性能之间的平衡关系,并为其特定的业务需求优化它。

    Hadoop

    Hadoop旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以产生其结果。Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。

    Hadoop平台对于操作非常大型的数据集而言可以说是一个强大的工具。为了抽象Hadoop编程模型的一些复杂性,已经出现了多个在Hadoop之上运行的应用开发语言。Pig、Hive和Jaql是其中的代表。而除了Java外,您还能够以其他语言编写map和reduce函数,并使用称为Hadoop Streaming(简写为Streaming)的API调用它们。

    流定义

    从技术角度而言,流是通过边缘连接的节点图。图中的每个节点都是“运算符”或“适配器”,均能够在某种程度上处理流内的数据。节点可以不包含输入和输出,也可以包含多个输入和输出。一个节点的输出与另外一个或多个节点的输入相互连接。图形的边缘将这些节点紧密联系在一起,表示在运算符之间移动的数据流。

    右图一个简单的流图,它可以从文件中读取数据,将数据发送到名为Functor的运算符(此运算符能够以某种编程方式转换所传入的数据),然后将这些数据传入另一个运算符。在此图片中,流数据被传送至Split运算符,而后又将数据传入文件接收器或数据库(具体情况视Split运算符的内部状况而定)。

    利用Apache Hadoop等开源项目,通过传感器、RFID、社交媒体、呼叫中心记录和其他来源提供的新型数据创造价值。

    Streams

    大数据应用领域即,IBM InfoSphere Streams。在IBMInfoSphere Streams(简称Streams)中,数据将会流过有能力操控数据流(每秒钟可能包含数百万个事件)的运算符,然后对这些数据执行动态分析。这项分析可触发大量事件,使企业利用即时的智能实时采取行动,最终改善业务成果。

    当数据流过这些分析组件后,Streams将提供运算符将数据存储至各个位置,或者如果经过动态分析某些数据被视为毫无价值,则会丢弃这些数据。你可能会认为Streams与复杂事件处理(CEP) 系统非相似,不过Streams的设计可扩展性更高,并且支持的数据流量也比其他系统多得多。此外,Streams还具备更高的企业级特性,包括高可用性、丰富的应用程序开发工具包和高级调度。

    出于这样的目的,许多组织开始启动自己的大数据治理计划。所谓大数据治理,指的是制定策略来协调多个职能部门的目标,从而优化、保护和利用大数据,将其作为一项企业资产。

    容量问题

    这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。在解决容量问题上,不得不提LSI公司的全新Nytro™智能化闪存解决方案,采用Nytro产品,客户可以将数据库事务处理性能提高30倍,并且超过每秒4.0GB的持续吞吐能力,非常适用于大数据分析

    延迟问题

    “大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。

    安全问题

    某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,大数据应用催生出一些新的、需要考虑的安全性问题,这就充分体现出利用基于DuraClass™ 技术的LSI SandForce®闪存处理器的优势了,实现了企业级闪存性能和可靠性,实现简单、透明的应用加速,既安全又方便。

    大数据应用领域成本问题

    对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。重复数据删除等技术已经进入到主存储市场,而且还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,这种锱铢必较的服务器也只有LSI推出的Syncro™ MX-B机架服务器启动盘设备都能够获得明显的投资回报,当今,数据中心使用的传统引导驱动器不仅故障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100倍。并且对主机系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本的问题。

    数据的积累

    许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

    灵活性

    大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。

    应用感知

    最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。

    针对小用户

    依赖大数据的不仅仅是那些特殊的大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”存储系统,主要吸引那些对成本比较敏感的用户。

    大数据大数据治理计划也需要关注与其他信息治理计划类似的问题。这些计划必须解决以下问题:

    ■元数据

    大数据治理需要创建可靠的元数据,避免出现窘境,例如,一家企业重复购买了相同的数据集两次,而原因仅仅是该数据集在两个不同的存储库内使用了不同的名称。

    ■隐私

    企业需要严格关注遵守隐私方面的问题,例如利用社交媒体进行数据分析。

    ■数据质量

    考虑到大数据的庞大数量和超快速度,组织需要确定哪种级别的数据质量属于“足够好”的质量。

    信息生命周期管理。大数据治理计划需要制定存档策略,确保存储成本不会超出控制。除此之外,组织需要设定保留计划,以便按照法规要求合理处置数据。

    ■管理人员

    最终,企业需要招募大数据管理员。例如,石油与天然气公司内的勘探开采部门的管理员负责管理地震数据,包括相关元数据在内。这些管理员需要避免组织因不一致的命名规范而付款购买已经拥有的外部数据。除此之外,社交媒体管理员需要与法律顾问和高级管理人员配合工作,制定有关可接受的信息使用方法的策略。

    数据价值

    众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。

    显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式……所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让您的行事方式发生天翻地覆的转变。

    但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。

    毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。

    大数据应用所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么:这些数据来源为一些私营公司提供了巨大的价值,这些公司能够善用这些数据,创造满足潜在需求的新产品和服务。

    企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及获取能够破解庞大数据集含义的工具只是等式的一部分,但是这种挑战不容低估。产生的数据在数量上持续膨胀;音频、视频和图像等富媒体需要新的方法来发现;电子邮件、IM、tweet和社交网络等合作和交流系统以非结构化文本的形式保存数据,必须用一种智能的方式来解读。

    但是,应该将这种复杂性看成是一种机会而不是问题。处理方法正确时,产生的数据越多,结果就会越成熟可靠。传感器、GPS系统和社交数据的新世界将带来转变运营的惊人新视角和机会。请不要错过。

    有些人会说,数据中蕴含的价值只能由专业人员来解读。但是泽字节经济并不只是数据科学家和高级开发员的天下。

    数据的价值在于将正确的信息在正确的时间交付到正确的人手中。未来将属于那些能够驾驭所拥有数据的公司,这些数据与公司自身的业务和客户相关,通过对数据的利用,发现新的洞见,帮助他们找出竞争优势。

    数据机遇

    自从有了IT部门,董事会就一直在要求信息管理专家提供洞察力。实际上,早在1951年,对预测小吃店蛋糕需求的诉求就催生了计算机的首次商业应用。自那以后,我们利用技术来识别趋势和制定战略战术的能力不断呈指数级日臻完善。

    今天,商业智能 (使用数据模式看清曲线周围的一切) 稳居 CXO 们的重中之重。在理想的世界中,IT 是巨大的杠杆,改变了公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

    大数据分析是商业智能的演进。当今,传感器、GPS 系统、QR 码、社交网络等正在创建新的数据流。所有这些都可以得到发掘,正是这种真正广度和深度的信息在创造不胜枚举的机会。要使大数据言之有物,以便让大中小企业都能通过更加贴近客户的方式取得竞争优势,数据集成和数据管理是核心所在。

    面临从全球化到衰退威胁的风暴, IT部门领导需要在掘金大数据中打头阵,新经济环境中的赢家将会是最好地理解哪些指标影响其大步前进的人。

    大数据应用当然,企业仍将需要聪明的人员做出睿智的决策,了解他们面临着什么,在充分利用的情况下,大数据可以赋予人们近乎超感官知觉的能力。Charles Duigg是《习惯的力量》一书的作者,他找出的一个黄金案例分析的例子是美国零售商 Target,其发现妇女在怀孕的中间三个月会经常购买没有气味的护肤液和某些维生素。通过锁定这些购物者,商店可提供将这些妇女变成忠诚客户的优惠券。实际上,Target 知道一位妇女怀孕时,那位妇女甚至还没有告诉最亲近的亲朋好友 -- 更不要说商店自己了。

    很明显,在可以预见的将来,隐私将仍是重要的考量,但是归根结底,用于了解行为的技术会为方方面面带来双赢,让卖家了解买家,让买家喜欢买到的东西。

    再看一下作家兼科学家 Stephen Wolfram的例子,他收集有关自身习惯的数据,以分析他的个人行为,预测事件在未来的可能性。

    大数据将会放大我们的能力,了解看起来难以理解和随机的事物。对其前途的了解提供了获取崭新知识和能力的机会,将改变您的企业运作的方式。

    发展前景

    大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据 。

    2013年5月10日,阿里巴巴集团董事局主席马云淘宝十周年晚会上,将卸任阿里集团CEO的职位,并在晚会上做卸任前的演讲,马云说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。

    大数据正在改变着产品和生产过程、企业和产业,甚至竞争本身的性质。把信息技术看作是辅助或服务性的工具已经成为过时的观念,管理者应该认识到信息技术的广泛影响和深刻含义,以及怎样利用信息技术来创造有力而持久的竞争优势。无疑,信息技术正在改变着我们习以为常的经营之道,一场关系到企业生死存亡的技术革命已经到来。

    借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。

    随着全球范围内个人电脑、智能手机等设备的普及和新兴市场内不断增长的互联网访问量,以及监控摄像机智能电表等设备产生的数据爆增,使数字宇宙的规模在2012到2013两年间翻了一番,达到惊人的2.8ZB。 IDC预计,到2020年,数字宇宙规模将超出预期,达到40ZB。

    大数据应用40ZB究竟是个什么样的概念呢?地球上所有海滩上的沙粒加在一起估计有七万零五亿亿颗。40ZB相当于地球上所有海滩上的沙粒数量的57倍。也就是说到2020年,数字宇宙将每两年翻一番;到2020年,人均数据量将达5,247GB。

    该报告同时显示,尽管个人和机器每天产生大量数据,使数字宇宙前所未有地不断膨胀,但仅有0.4%的全球数据得到了分析。由此可见,大数据的应用几乎是一块未被开垦的处女地。

    价值

    谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。

    大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,已进入大数据时代,但硬件明显已跟不上数据发展的脚步。

    以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而提及“大数据”,通常是指解决问题的一种方法,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

    虽然大数据在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。

    未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。

    存储

    随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。

    针对大数据的世界领先品牌存储企业有:IBM、EMC、LSISandForce 、 云创存储、INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等。

    “大数据”的商业价值简而言之,企业可以通过思考数据战略的总体回报,来应对大数据的挑战,抓住大数据的机会。Informatica所指的‘数据回报率’,是为帮助高级IT和业务部门领导者进行大数据基本的战术和战略含义的讨论而设计的一个简单概念。等式非常简单:如果您提高数据对于业务部门的价值,同时降低管理数据的成本,从数据得到的回报就会增加 -- 无论是用金钱衡量,还是更好的决策

    数据回报率=数据价值/数据成本

    在技术层面,数据回报率为数据集成、数据管理、商业智能和分析方面的投入提供了业务背景和案例。它还与解决业务的基础有关:挣钱、省钱、创造机会和管理风险。它涉及对效率的考虑,同时推动了改变游戏规则的洞察力。

    实现回报

    Informatica深知,对于很多企业来说,向数据回报模型的转变不会一蹴而就。管理数据并将其成本降低的短期要求将会是首要焦点,同样还需要打破障碍以了解数据。企业只有这时才可以开始从传统和新兴数据集获得更多价值。Informatica可提供数据集成平台和领导力,为企业提供全程帮助。

    在大数据的世界中,最灵活和成功的企业将会是那些善用大机遇的公司。

    意义

    1.变革价值的力量

    未来十年,决定中国是不是有大智慧的核心意义标准(那个”思想者”),就是国民幸福。一体现到民生上,通过大数据让事情变得澄明,看我们在人与人关系上,做得是否比以前更有意义;二体现在生态上,看我们在天与人关系上,做得是否比以前更有意义。总之,让我们从前10年的意义混沌时代,进入未来10年意义澄明时代。

    2.变革经济的力量

    生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。大数据帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理。

    3.变革组织的力量

    随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的,是各种各样去中心化WEB2.0应用,如RSS、维基、博客等。 大数据之所以成为时代变革力量,在于它通过追随意义而获得智慧。

    用途

    大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

    大数据与云计算的关系物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

    有些例子包括网络日志,RFID,传感器网络社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。

    弊端

    虽然大数据的拥护者看到了使用大数据的巨大潜力,但也有隐私倡导者担心,因为越来越多的人开始收集相关数据,无论是他们是否会故意透露这些数据或通过社交媒体张贴,甚至他们在不知不觉中通过分享自己的生活而公布了一些具体的数字细节。

    分析这些巨大的数据集会使我们的预测能力产生虚假的信息,将导致作出许多重大和有害的错误决定。此外,数据被强大的人或机构滥用,自私的操纵议程达到他们想要的结果。

    洛杉矶警察局加利福尼亚大学合作利用大数据预测犯罪的发生。

    google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。

    统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。

    麻省理工学院利用手机定位数据和交通数据建立城市规划。

    梅西百货的实时定价机制,根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。

    Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势。”Laney分析到。

    PredPol Inc. 公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪暴力犯罪分布下降了33%和21%。

    American Express(美国运通,AmEx)和商业智能。以往,AmEx只能实现事后诸葛式的报告和滞后的预测。“传统的BI已经无法满足业务发展的需要。”Laney认为。于是,AmEx开始构建真正能够预测忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后四个月中流失的客户,已经能够识别出其中的24%。

    大数据实践 基础架构先行Express Scripts Holding Co.的产品制造。该公司发现那些需要服药的人常常也是最可能忘记服药的人。因此,他们开发了一个新产品:会响铃的药品盖和自动的电话呼叫,以此提醒患者按时服药。

    Infinity Property & Casualty Corp.的黑暗数据(dark data)。Laney对于黑暗数据的定义是,那些针对单一目标而收集的数据,通常用过之后就被归档闲置,其真正价值未能被充分挖掘。在特定情况下,这些数据可以用作其他用途。该公司用累积的理赔师报告来分析欺诈案例,通过算法挽回了1200万美元的代位追偿金额。

    利用起互联网大数据,对消费者的喜好进行判定。商户可以为消费者定制相应的独特的个性服务,甚至可以在一些商品或者服务上匹配用户心情等等。商家还可以根据大数据为消费者提供其可能会喜好的特色产品,活动,小而美的小众商品等等 。

    地产业的升级改造,具有令人兴奋的商业前景。一个Shopping Mall的投资往往高达数十亿元,设想一下,如果智能化升级能够让一个Shopping Mall的顾客数量和人均消费提升30%-50%,为此投入几百万元甚至上千万元对于投资方来说非常划算,那么仅仅针对国内Shopping Mall的智能化升级就是一个千亿元级别的市场。

    经典大数据案例-沃尔玛经典营销:啤酒与尿布

    “啤酒与尿布”的故事产生于20世纪90年代美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

    在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店, 直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。

    当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提 出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior 算 法引入到 POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

    IBM战略

    IBM的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。所谓“3A5步”,指的是在“掌握信息”(Align)的基础上“获取洞察”(Anticipate),进而采取行动(Act),优化决策策划能够救业务绩效。除此之外,还需要不断地“学习”(Learn)从每一次业务结果中获得反馈,改善基于信息的决策流程,从而实现“转型”(Transform)。

    大数据基于“3A5步”动态路线图,IBM提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。

    在大数据处理领域,IBM于2012年10月推出了IBMPureSystems专家集成系统的新成员——IBM PureData系统。这是IBM在数据处理领域发布的首个集成系统产品系列。PureData系统具体包含三款产品,分别为PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分别应用于OLTP(联机事务处理)、OLAP(联机分析处理)和大数据分析操作。与此前发布的IBMPureSystems系列产品一样,IBM PureData系统提供内置的专业知识、源于设计的集成,以及在其整个生命周期中的简化体验。

    斯隆数字巡天收集在其最初的几个星期,就比在天文学的历史上之前的2000年的收集了更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上将获得数据公布,沃尔玛每隔一小时处理超过100万客户的交易,录入量数据库估计超过2.5 PB相当于美国国会图书馆的书籍的167倍 。FACEBOOK从它的用户群获得并处理400亿张照片。解码最原始的人类基因组花费10年时间处理,如今可以在一个星期内实现。

    “大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。

    大数据已经出现,因为我们生活在一个有更多信息的社会中。有46亿全球移动电话用户有20亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人收益的这笔钱将反过来导致更多的信息增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。

    大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。

    大数据实践国内网络广告投放正从传统的面向群体的营销转向个性化营销,从流量购买转向人群购买。虽然市场大环境不好,但是具备数据挖掘能力的公司却倍受资本青睐。

    163大数据是一个很好的视角和工具。从资本角度来看,什么样的公司有价值,什么样的公司没有价值,从其拥有的数据规模、数据的活性和这家公司能运用、解释数据的能力,就可以看出这家公司的核心竞争力。而这几个能力正是资本关注的点。

    移动互联网与社交网络兴起将大数据带入新的征程,互联网营销将在行为分析的基础上向个性化时代过渡。创业公司应用“大数据”告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发表的正确内容等,这正好切中了广告商的需求。

    社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。

    实际上,将用户群精准细分,直接找到要找的用户正是社交内容背后数据挖掘所带来的结果。而通过各种算法实现的数据信息交易,正是张文浩为自己的社交数据挖掘公司设计的盈利模式。这家仅仅五六个人的小公司拿到了天使投资。未来的市场将更多地以人为中心,主动迎合用户需求,前提就是要找到这部分人群。

    在移动互联网领域,公司从开发者角度找到数据挖掘的方向,通过提供免费的技术服务,帮助开发者了解应用状况。

    国内的企业跟美国比较,有一个很重要的特性就是人口基数的区别,中国消费群体所产生的这种数据量,与国外相比不可同日而语。

    伴随着各种随身设备、物联网和云计算云存储等技术的发展,人和物的所有轨迹都可以被记录。在移动互联网的核心网络节点是人,不再是网页。数据大爆炸下,怎样挖掘这些数据,也面临着技术与商业的双重挑战。

    首先,如何将数据信息与产品和人相结合,达到产品或服务优化是大数据商业模式延展上的挑战之一。

    其次,巧妇难为无米之炊,大数据的关键还是在于谁先拥有数据。

    从市场角度来看,大数据还面临其他因素的挑战。

    产业界对于大数据的热情持续升温的同时,资本也敏锐地发现了这一趋势,并开始关注数据挖掘和服务类公司。

    最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

    大数据时代:如何节省存储成本“麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。”

    事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。包括EMC、惠普、IBM、微软在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。

    “大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在2011年12月8日工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术信息安全技术,也都与“大数据”密切相关。

    大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、物联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。

    大数据时代网民和消费者的界限正在消弭,企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构其文化和组织。因此,大数据对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。如果不能利用大数据更加贴近消费者、深刻理解需求、高效分析信息并作出预判,所有传统的产品公司都只能沦为新型用户平台级公司的附庸,其衰落不是管理能扭转的。

    大数据时代将引发新一轮信息化投资和建设热潮。据IDC预测,到2020年全球将总共拥有35ZB的数据量,而麦肯锡则预测未来大数据产品在三大行业的应用就将产生7千亿美元的潜在市场,未来中国大数据产品的潜在市场规模有望达到1.57万亿元,给IT行业开拓了一个新的黄金时代。

    当前还处在大数据时代的前夜,预计今明两年将是大数据市场的培育期,2014年以后大数据产品将会形成业绩。

    大数据给城市带来的重大变革宋清辉:大数据正改变我们的未来

    大数据时代,与其让对你感兴趣的人去搜寻你的隐私,就不如自曝隐私。当我在全球不同城市演讲结束交换名片的时候,基本从来不发载有自己名字、电话、地址等基本信息的名片,因为那根本用不着,也不符合大数据时代的精髓。所以我的名片简单到只有一个名字和几个二维码,只要百度一下或者扫一扫二维码,关于个人的信息别人就会一览无余,包括在写什么文章、在哪里演讲等信息……

    不想说一个人若拒绝大数据就去失去生命这样沉重的话题,但大数据确实在深刻改变着你和我的未来。

    2015年5月26日,中共贵州省委副书记、省政府省长陈敏尔在峰会上透露,国家在制定大数据国家战略及行动计划。贵州省将抓住和用好战略机遇,深入挖掘大数据的商业价值、管理价值和社会价值。[2]

    工信部信息服务处处长李琰在论坛期间则表示,工信部将抓紧研究制定大数据发展的指导性文件。下一步,工信部将和有关部门加强协同,积极营造良好的环境,推动应用和产业相互促进、良性发展,为我国大数据产业和大数据创新发展探索积累经验。

    大数据时代来了!不得不承认如今数据量的激增越来越明显,各种各样的数据铺天盖地的砸下来,企业选择相应工具来存储、分析与处理它们。从Excel、BI工具,到现在最新的可视化数据分析工具大数据魔镜,数据分析软件进步越来越快,免费的大数据魔镜已经可以达到500多种可视化效果和实现数据共享。那么在大数据时代中,都新出现了哪些数据类型呢?

    1)过于一些记录是以模拟形式方式存在的,或者以数据形式存在但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有。举个例子,Facebook每天有18亿张照片上传或被传播,形成了海量的数据。[3]

    2)移动互联网出现后,移动设备的很多传感器收集了大量的用户点击行为数据,已知IPHONE有3个传感器,三星有6个传感器。它们每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据。

    3)电子地图如高德、百度、Google地图出现后,其产生了大量的数据流数据,这些数据不同于传统数据,传统数据代表一个属性或一个度量值,但是这些地图产生的流数据代表着一种行为、一种习惯,这些流数据经频率分析后会产生巨大的商业价值。基于地图产生的数据流是一种新型的数据类型,在过去是不存在的。

    4)进入了社交网络的年代后,互联网行为主要由用户参与创造,大量的互联网用户创造出海量的社交行为数据,这些数据是过去未曾出现的。其揭示了人们行为特点和生活习惯。

    5)电商户崛起产来了大量网上交易数据,包含支付数据,查询行为,物流运输、购买喜好,点击顺序,评价行为等,其是信息流和资金流数据。

    6)传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量数据。单位存储价格的下降也为存储这些数据提供了经济上的可能。

    上面我们所指的大数据不同与过去传统的数据,其产生方式、存储载体、访问方式、表现形式、来源特点等都同传统数据不同。大数据更接近于某个群体行为数据,它是全面的数据、准确的数据、有价值的数据。这些新类型数据相信大家都很熟悉,它们已经比传统数据类型更深入地走进了我们生活。


    展开全文
  • 机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱   本文主要解释一些关于机器学习模型评价的主要概念,与评价中可能会遇到的一些陷阱。如训练集-验证集二划分校验(Hold-out validation)、...

    文章地址:http://blog.csdn.net/heyongluoyao8/article/details/49408319#

    机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱

    前言

      本文主要解释一些关于机器学习模型评价的主要概念,与评价中可能会遇到的一些陷阱。如训练集-验证集二划分校验(Hold-out validation)、交叉校验(Cross-validation)、超参数调优(hyperparameter tuning)等。这三个术语都是从不同的层次对机器学习模型进行校验。Hold-out validation与Cross-validation是将模型能够更好得对将来的数据(unseen data)进行拟合而采用的方法。Hyperparameter tuning是一种模型选择方法。
      机器学习是一门跨学科领域,涉及到统计学、计算机科学、最优化理论、信息理论、神经科学、理论物理以及其他领域。同时,机器学习也是一门非常年轻的学科。机器学习的大规模应用仅仅开始于过去二十年。当今,数据科学应用已成为一种职业。就像西部开发一样,拥有则无尽的机会,同时也有伴随着很多迷惑与问题。
      本文将从以下部分对机器学习模型的评价进行介绍:
    * 介绍模型离线与在线评价体系与知识;
    * 介绍一些不同类别下得机器学习模型评价指标,如分类回归、排序等。
    * 介绍训练目标、模型验证指标的区别
    * 介绍解决数据倾斜的一些方法以及模型参数调优的方法
    * 最后介绍一些工具,如GraphLab与Dato等。

    机器学习Workflow

      一般的,机器学习过程包括两个阶段,分别为:原型设计阶段(Prototyping)与应用阶段(Deployed),与软件开发类似的Debug与Release阶段。如下图所示:
    ![Alt text](./屏幕快照 2015-09-26 下午4.30.10.png)
    Prototyping阶段是使用历史数据训练一个适合解决目标任务的一个或多个机器学习模型,并对模型进行验证(Validation)与离线评估(Offline evalutation),然后通过评估指标选择一个较好的模型。如在分类任务中,选择一个适合自己问题的最好的分类算法。Deployed阶段是当模型达到设定的指标值时便将模型上线,投入生产,使用新生成的数据来对该模型进行在线评估(Online evalution),以及使用新数据更新模型。在对模型进行离线评估或者在线评估时,它们所用的评价指标往往不同。如在离线评估中,我们精彩使用的有准确率(accuracy)、精确率-召回率(precision-recall),而在在线评估中,一般使用一些商业评价指标,如用户生命周期值(customer lifetime value)、广告点击率(click through rate)、用户流失率(customer churn rate)等,这些指标才是模型使用者最终关心的一些指标。甚至在对模型进行训练和验证过程中使用的评价指标都不一样。
      同时我们注意到,在这两个阶段使用的数据集也不一样,分别是历史数据(historical data)与新数据(live data)。在机器学习中,很多模型都是假设数据的分布是一定的,不变的,即历史数据与将来的数据都服从相同的分布。但是,在现实生活中,这种假设往往是不成立的,即数据的分布会随着时间的移动而改变,有时甚至变化得很急剧,这种现象称为分布漂移(Distribution Drift)。例如,在文章推荐系统中,文章的主题集数目和主题的发生频率可能是每天改变的,甚至每个小时都在改变,昨天流行的主题在今天可能就不再流行了。如在新闻推荐中,新闻主题就变更得非常快。因此在进行模型构建之时,我们需要去扑捉分布漂移信息并使自己的模型能够应对这种情况。一个常用的方法便是使用一些验证指标对模型在不断新生的数据集上进行性能跟踪。如果指标值能够达到模型构建时的指标值,那么表示模型能够继续对当前数据进行拟合。当性能开始下降时,说明该模型已经无法拟合当前的数据了,因此需要对模型进行重新训练了。
      不同的机器学习任务有着不同的性能评价指标。例如,在垃圾邮件检测系统中,它本身是一个二分类问题(垃圾邮件vs正常邮件),可以使用准确率(Accuracy)、对数损失函数(log-loss)、AUC等评价方法。又如在股票预测中,它本身是一个实数序列数据预测问题,可以使用平方根误差(root mean square error, RMSE)等指标;又如在搜索引擎中进行与查询相关的项目排序中,可以使用精确率-召回率(precision-recall)、NDCG(normalized discounted cumulative gain)。
      正如前面所提到的那样,在原型阶段中最重要的任务便是选择一个正确的适合的模型对数据进行拟合。而当模型训练完毕后,我们需要使用一个与训练数据集独立的新的数据集去对模型进行验证。因为模型本身就是使用训练数据集训练出来的,因此它已经对训练集进行了很好的拟合,但是它在新的数据集上的效果则有待验证,因此需要使用新的与训练集独立的数据集对模型进行训练,确保该模型在新的数据集上也能够满足要求。模型能够对新的数据也能work称为模型的泛化能力。
      那么新的数据集如何得来呢?一般的解决方法是将已有的数据集随机划分成两个个部分,一个用来训练模型,另一个用来验证与评估模型。另一种方法是重采样,即对已有的数据集进行有放回的采样,然后将数据集随机划分成两个部分,一个用来训练,一个用来验证。至于具体的做法有hold-out validation、k-fold cross-validation、bootstrapping与jackknife resampling,后面会进行详细介绍。
      机器学习模型建立过程其实是一个参数学习与调优的过程。对模型进行训练,便是模型参数的学习更新过程。模型出了这些常规参数之外,还存在超参数(hyperparameters)。它们之间有何区别呢?简而言之,模型参数使指通过模型训练中的学习算法而进行调整的,而模型超参数不是通过学习算法而来的,但是同样也需要进行调优。举例,我们在对垃圾邮件检测进行建模时,假设使用logistic回归。那么该任务就是在特征空间中寻找能够将垃圾邮件与正常邮件分开的logistic函数位置,于是模型训练的学习算法便是得到各个特征的权值,从而决定函数的位置。但是该学习算法不会告诉我们对于该任务需要使用多少个特征来对一封邮件进行表征,特征的数目这个参数便是该模型的超参数。
      超参数的调优是一个相当复杂与繁琐的任务。在模型原型设计阶段,需要尝试不同的模型、不同的超参数意见不同的特征集,我们需要寻找一个最优的超参数,因此需要使用相关的搜索算法去寻找,如格搜索(grid search)、随机搜索(random search)以及启发式搜索(smart search)等。这些搜索算法是从超参数空间中寻找一个最优的值。本文后面会进行详细介绍。
      当模型使用离线数据训练好并满足要求后,就需要将模型使用新的在线数据进行上线测试,这就是所谓的在线测试。在线测试不同于离线测试,有着不同的测试方法以及评价指标。最常见的便是A/B testing,它是一种统计假设检验方法。不过,在进行A/B testing的时候,会遇到很多陷阱与挑战,具体会在本文后面进行详细介绍。另一个相对使用较小的在线测试方法是multiarmed bandits。在某些情况下,它比A/B testing的效果要好。后面会进行具体讲解。

    评价指标(Evaluation metrics)

      评价指标是机器学习任务中非常重要的一环。不同的机器学习任务有着不同的评价指标,同时同一种机器学习任务也有着不同的评价指标,每个指标的着重点不一样。如分类(classification)、回归(regression)、排序(ranking)、聚类(clustering)、热门主题模型(topic modeling)、推荐(recommendation)等。并且很多指标可以对多种不同的机器学习模型进行评价,如精确率-召回率(precision-recall),可以用在分类、推荐、排序等中。像分类、回归、排序都是监督式机器学习,本文的重点便是监督式机器学习的一些评价指标。

    分类评价指标

      分类是指对给定的数据记录预测该记录所属的类别。并且类别空间已知。它包括二分类与多分类,二分类便是指只有两种类别,如垃圾邮件分类中便是二分类问题,因为类别空间只有垃圾邮件和非垃圾邮件这两种,可以称为“负”(negative)与正(positive)两种类别,一般在实际计算中,将其映射到“0”-“1” class中;而多分类则指类别数超过两种。下面主要根据二分类的评价指标进行讲解,不过同时它们也可扩展到多分类任务中。下面对分类中一些常用的评价指标进行介绍。

    准确率(Accuracy)

      准确率是指在分类中,使用测试集对模型进行分类,分类正确的记录个数占总记录个数的比例:

    accuracy=ncorrectntotal

      准确率看起来非常简单。然而,准确率评价指标没有对不同类别进行区分,即其平等对待每个类别。但是这种评价有时是不够的,比如有时要看类别0与类别1下分类错误的各自个数,因为不同类别下分类错误的代价不同,即对不同类别的偏向不同,比如有句话为“宁可错杀一万,不可放过一千“就是这个道理,例如在病患诊断中,诊断患有癌症实际上却未患癌症(False Positive)与诊断未患有癌症的实际上却患有癌症(False Negative)的这两种情况的重要性不一样。。另一个原因是,可能数据分布不平衡,即有的类别下的样本过多,有的类别下的样本个数过少,两类个数相差较大。这样,样本占大部分的类别主导了准确率的计算,为了解决这个问题,对准确率进行改进,得到平均准确率。

    平均准确率(Average Per-class Accuracy)

      为了应对每个类别下样本的个数不一样的情况,对准确率进行变种,计算每个类别下的准确率,然后再计算它们的平均值。举例,类别0的准确率为80%,类别1下的准确率为97.5%,那么平均准确率为(80%+97.5%)/2=88.75%。因为每个类别下类别的样本个数不一样,即计算每个类别的准确率时,分母不一样,则平均准确率不等于准确率,如果每个类别下的样本个数一样,则平均准确率与准确率相等。
      平均准确率也有自己的缺点,比如,如果存在某个类别,类别的样本个数很少,那么使用测试集进行测试时(如k-fold cross validation),可能造成该类别准确率的方差过大,意味着该类别的准确率可靠性不强。

    对数损失函数(Log-loss)

      在分类输出中,若输出不再是0-1,而是实数值,即属于每个类别的概率,那么可以使用Log-loss对分类结果进行评价。这个输出概率表示该记录所属的其对应的类别的置信度。比如如果样本本属于类别0,但是分类器则输出其属于类别1的概率为0.51,那么这种情况认为分类器出错了。该概率接近了分类器的分类的边界概率0.5。Log-loss是一个软的分类准确率度量方法,使用概率来表示其所属的类别的置信度。Log-loss具体的数学表达式为:

    log_loss=1Ni=1Nyilogpi+(1yi)log(1pi)

    其中,yi是指第i个样本所属的真实类别0或者1,pi表示第i个样本属于类别1的概率,这样上式中的两个部分对于每个样本只会选择其一,因为有一个一定为0,当预测与实际类别完全匹配时,则两个部分都是0,其中假定0log0=0。
      其实,从数学上来看,Log-loss的表达式是非常漂亮的。我们仔细观察可以发现,其信息论中的交叉熵(Cross Entropy,即真实值与预测值的交叉熵),它与相对熵(Relative Entropy,也称为KL距离或KL散度, Kullback–Leibler divergence.)也非常像。信息熵是对事情的不确定性进行度量,不确定越大,熵越大。交叉熵包含了真实分布的熵加上假设与真实分布不同的分布的不确定性。因此,log-loss是对额外噪声(extra noise)的度量,这个噪声是由于预测值域实际值不同而产生的。因此最小化交叉熵,便是最大化分类器的准确率。

    精确率-召回率(Precision-Recall)

      精确率-召回率其实是两个评价指标。但是它们一般都是同时使用。精确率是指分类器分类正确的正样本的个数占该分类器所有分类为正样本个数的比例。召回率是指分类器分类正确的正样本个数占所有的正样本个数的比例。

    F1-score:

      F1-score为精确率与召回率的调和平均值,它的值更接近于Precision与Recall中较小的值。即:

    F1=2precisionrecallprecision+recall

    AUC(Area under the Curve(Receiver Operating Characteristic, ROC))

      AUC的全称是Area under the Curve,即曲线下的面积,这条曲线便是ROC曲线,全称为the Receiver Operating Characteristic曲线,它最开始使用是上世纪50年代的电信号分析中,在1978年的“Basic Principles of ROC Analysis ”开始流行起来。ROC曲线描述分类器的True Positive Rate(TPR,分类器分类正确的正样本个数占总正样本个数的比例)与False Positive Rate(FPR,分类器分类错误的负样本个数占总负样本个数的比例)之间的变化关系。如下图所示:
    ![Alt text](./屏幕快照 2015-09-27 下午12.42.54.png)
    如上图,ROC曲线描述FPR不断变化时,TPR的值,即FPR与TPR之间的关系曲线。显而易见,最好的分类器便是FPR=0%,TPR=100%,但是一般在实践中一个分类器很难会有这么好的效果,即一般TPR不等于1,FPR不等于0的。当使用ROC曲线对分类器进行评价时,如果对多个分类器进行比较时,如果直接使用ROC曲线很难去比较,只能通过将ROC分别画出来,然后进行肉眼比较,那么这种方法是非常不便的,因此我们需要一种定量的指标去比较,这个指标便是AUC了,即ROC曲线下的面积,面积越大,分类器的效果越好,AUC的值介于0.5到1.0之间。
      具体如何描绘ROC曲线,如在二分类中,我们需要设定一个阈值,大于阈值分类正类,否则分为负类。因此,我们可以变化阈值,根据不同的阈值进行分类,根据分类结果计算得到ROC空间中的一些点,连接这些点就形成ROC曲线。ROC曲线会经过(0,0)与(1,1)这两点,实际上这两点的连线形成的ROC代表一个随机分类器,一般情况下分类器的ROC曲线会在这条对角连线上方。
      在ROC曲线中,点(0,0)表示TPR=0,FPR=0,即分类器将每个实例都预测为负类;点(1,1)表示TPR=1,FPR=1,即分类器将每个实例都预测为正类;点(0,0)表示TPR=1,FPR=0,即分类器将每个正类实例都预测为正类,将每个负类实例都预测为负类,这是一个理想模型。
      ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中,经常会出现类别不平衡(class imbalance)现象,即负样本比正样本少很多(或者相反),而且测试数据集中的正负样本的分布也可能随时间发生变化。关于ROC与AUC更多的讲解,参见这里

    混淆矩阵(Confusion Matrix)

      混淆矩阵是对分类的结果进行详细描述的一个表,无论是分类正确还是错误,并且对不同的类别进行了区分,对于二分类则是一个2*2的矩阵,对于n分类则是n*n的矩阵。对于二分类,第一行是真实类别为“Positive”的记录个数(样本个数),第二行则是真实类别为“Negative”的记录个数,第一列是预测值为“Positive”的记录个数,第二列则是预测值为“Negative”的记录个数。如下表所示:

    Predicted as Positive Predicted as Negative
    Labeled as Positive True Positive(TP) False Negative(FN)
    Labeled as Negative False Positive(FP) True Negative(TN)

    如上表,可以将结果分为四类:
    * 真正(True Positive, TP):被模型分类正确的正样本;
    * 假负(False Negative, FN):被模型分类错误的正样本;
    * 假正(False Positive, FP):被模型分类的负样本;
    * 真负(True Negative, TN):被模型分类正确的负样本;

    进一步可以推出这些指标:
    * 真正率(True Positive Rate, TPR),又名灵敏度(Sensitivity):分类正确的正样本个数占整个正样本个数的比例,即:TPR=TPTP+FN
    * 假负率(False Negative Rate, FNR):分类错误的正样本的个数占正样本的个数的比例,即:FNR=FNTP+FN
    * 假正率(False Positive Rate, FPR):分类错误的负样本个数占整个负样本个数的比例,即:FPR=FPFP+TN
    * 真负率(True Negative Rate, TNR):分类正确的负样本的个数占负样本的个数的比例,即:TNR=TNFP+TN

    进一步,由混淆矩阵可以计算以下评价指标:
    * 准确率(Accuracy):分类正确的样本个数占所有样本个数的比例,即:

    accuracy=TP+TNTP+FN+FP+TN

    * 平均准确率(Average per-class accuracy):每个类别下的准确率的算术平均,即:
    average_accuracy=TPTP+FN+TNTN+FP2

    * 精确率(Precision):分类正确的正样本个数占分类器所有的正样本个数的比例,即:
    Precision=TPTP+FP

    * 召回率(Recall):分类正确的正样本个数占正样本个数的比例,即:
    Recall=TPTP+FN

    * F1-Score:精确率与召回率的调和平均值,它的值更接近于Precision与Recall中较小的值,即:
    F1=2precisionrecallprecision+recall

    * ROC曲线
    ROC曲线的x轴便是FPR,y轴便是TPR。

    回归评价指标

      与分类不同的是,回归是对连续的实数值进行预测,即输出值是连续的实数值,而分类中是离散值。例如,给你历史股票价格,公司与市场的一些信息,需要你去预测将来一段时间内股票的价格走势。那么这个任务便是回归任务。对于回归模型的评价指标主要有以下几种:
    * RMSE
      回归模型中最常用的评价模型便是RMSE(root mean square error,平方根误差),其又被称为RMSD(root mean square deviation),其定义如下:

    RMSE=ni=0(yiyi^)2n

    其中,yi是第i个样本的真实值,yi^是第i个样本的预测值,n是样本的个数。该评价指标使用的便是欧式距离。
      RMSE虽然广为使用,但是其存在一些缺点,因为它是使用平均误差,而平均值对异常点(outliers)较敏感,如果回归器对某个点的回归值很不理性,那么它的误差则较大,从而会对RMSE的值有较大影响,即平均值是非鲁棒的。
    * Quantiles of Errors
      为了改进RMSE的缺点,提高评价指标的鲁棒性,使用误差的分位数来代替,如中位数来代替平均数。假设100个数,最大的数再怎么改变,中位数也不会变,因此其对异常点具有鲁棒性。
      在现实数据中,往往会存在异常点,并且模型可能对异常点拟合得并不好,因此提高评价指标的鲁棒性至关重要,于是可以使用中位数来替代平均数,如MAPE:
    MAPE=median(|yiyi^|/yi)

      MAPE是一个相对误差的中位数,当然也可以使用别的分位数。
    * “Almost Crrect” Predictions
      有时我们可以使用相对误差不超过设定的值来计算平均误差,如当|yiyi^|/yi超过100%(具体的值要根据问题的实际情况)则认为其是一个异常点,,从而剔除这个异常点,将异常点剔除之后,再计算平均误差或者中位数误差来对模型进行评价。

    排序评价指标

      排序任务指对对象集按照与输入的相关性进行排序并返回排序结果的过程。举例,我们在使用搜索引擎(如google,baidu)的时候,我们输入一个关键词或多个关键词,那么系统将按照相关性得分返回检索结果的页面。此时搜索引擎便是一个排序器。其实,排序也可以说是一个二分类问题。即将对象池中的对象分为与查询词相关的正类与不相关的负类。并且每一个对象都有一个得分,即其属于正类的置信度,然后按照这个置信度将正类进行排序并返回。
      另一个与排序相关的例子便是个性化推荐引擎。个性化推荐引擎便是根据用户的历史行为信息或者元信息计算出每个用户当前有兴趣的项目,并为每个项目赋一个兴趣值,最好按照这个兴趣值进行排序,返回top n兴趣项目。
      对排序器进行评价的一下指标如下:
    * Precision-Recall精确率-召回率
      精确率-召回率已经在分类器的评价指标中介绍过。它们同样也可以用于对排序器进行评价。如下图所示:
    ![Alt text](./屏幕快照 2015-09-27 下午7.01.28.png)

    precision=happy correct answerstotal items returned by ranker

    recall=happy correct answerstotal relevant items

      一般的,排序器返回top k的items,如k=5, 10, 20, 100等。那么该评价指标改为“precision@k”和“recall@k”。
      在推荐系统中,它相当于一个多兴趣查询,即每个用户是一个查询词,然后返回每个查询词相关的top k项目,即返回每个用户感兴趣的top k项目,那么在计算评价指标值时,则需要对每个用户的精确率与召回率进行平均(average precision@k” and “average recall@k”),将平均值作为模型的精确率与召回率。
    * Precision-Recall Curve和F1 Score
      当我们改变top k中的k值时,便可以得到不同的精确率与召回率,那么我们可以通过改变k值而得到精确率曲线和召回率曲线。与ROC曲线一样,我们也需要一个定量的指标对其ROC曲线进行描述而来评价其对应的模型进行评价。可取多个k值,然后计算其评价的精确率与召回率。
      除了Precision-Recall曲线外,另一个便是F1 Score,在分类器评价指标中也有提及到,它将精确度与召回率两个指标结合起来,如下:
    F1=2precisionrecallprecision+recall

    F1-score是精确率与召回率的调和平均值,它的值更接近于Precision与Recall中较小的值。
    * NDCG
      在精确率与召回率中,返回集中每个项目的地位(权值)是一样,即位置k处的项目与位置1处的项目地位一样,但是实际情况应该是越排在前面的项目越相关,得分越高。NDCG(normalized discounted cumulative gain)指标便考虑了这种情况,在介绍NDCG之前,首先介绍一下CG(cumulative gain与DCG(discounted cumulative gain)。CG是对排序返回的top k个项目的相关性(即得分)求和,而DCG在每个项目的得分乘上一个权值,该权值与位置成反方向(如成反比),即位置越近,权值越大。而NDCG则对每项的带权值得分先进行归一化,然后再求和。
      在信息检索中或者那些对项目的返回位置关心的模型中经常使用DCG或NDCG。

    注意事项

    数据倾斜

      在对模型进行评价的时候,数据的好坏往往对评价指标有着很大的影响。其中数据倾斜便是一个常见的数据特征,具体指分类中每个类别的数据量不均衡,相差较大,存在一些异常点,这些异常点会对评价指标的计算产生较大的影响等。

    类别不均衡(Imbalanced Classes)

      在前面我们提到使用average per-class accuracy(平均类别准确率)来解决类别不均衡所带来的评价指标问题。举例:假设数据集中正类的数据记录数占总记录数的1%(现实世界中如广告系统中的点击率CTR、推荐系统中的发生行为的用户-项目对、恶意软件检测中的恶意软件),那么这种情况下,如果将所有对象都预测为负类,那么准确率则为99%,然而一个好的分类器准确率应该超过99%。在ROC曲线中,只有左上角的那个部分菜重要,如下图所示:
    ![Alt text](./屏幕快照 2015-09-27 下午10.10.00.png)
      如果评价指标对待每一个类别下的每一个实例都采用相等的权值,那么就很难处理类别不平衡问题。因为此时评价指标会被数据量大的类别占主导,起决定性作用。并且不止是影响模型评价阶段,而且会影响模型的训练阶段。如果数据的类别不平衡不做处理,那么就会影响到对小类别的数据记录的分类。
      例如在推荐系统中,真实的数据中,有行为的用户-项目对很少,即大部分用户有发生行为的项目量很少,以及大部分项目只有少量的用户在上面有行为。这两个问题会对推荐系统模型的训练与评价都会产生影响,但训练数据很少时,模型很难学习都用户的偏好,或者项目的兴趣相似项目量很少,导致在对模型进行评价时会得到一个很低的评价指标值,即会得到一个性能较差的推荐模型。

    异常点(Outliers)

      异常点是另一种数据倾斜问题。值大的异常点会对回归造成很大的影响与问题。例如,Million Song Dataset中,一个用户对一首歌曲的评分为该用户听这首歌曲的次数,回归模型的预测得分中最高得分竟然超过了16000分,这说明回归模型出现了一些问题,并且导致其它的误差相对于该误差都是极小的。我们可以使用误差的中位数来减少这个异常点所所带来的影响。从而增加鲁棒性。但是该方法不能解决在模型训练阶段的该问题。有效的解决方法是在数据预处理阶段对数据进行数据清洗从而剔除异常点,以及对人物进行重新定义与建模,使得其对异常低能不敏感。

    离线评价机制

      在模型的原型设计阶段包:特征选择、模型类型的选择、模型训练等。该部分内容仍然放在模型的原型设计阶段。

    模型训练(Training)、验证(Validation)与模型选择(Model Selection)

      我们在解决机器学习任务之时,需要选择一个合适正确的模型去拟合数据,模型的选择发生在模型的验证阶段而不是模型的训练阶段。即当我们训练出多个模型之时,需要选择一个较好的模型,具体而言,便是使用一个新的数据集(称为验证数据集)去对每个模型进行评价,选择一个最优的模型,最优不止是指效果,还有模型复杂度,模型可实践性等方面。如下图所示:
    ![Alt text](./屏幕快照 2015-09-27 下午10.56.23.png)
    在上图中,超参数调优(hyperparameter tuning )作为控制模型训练的一个元过程(“meta” process),即前奏过程,将会在后面详细介绍。图中将历史数据集划分成两个部分(一般是随机划分),一个作为模型的训练集,一个作为模型的验证数据集。模型训练阶段使用训练集来训练模型并输出之,然后使用验证集对该模型进行评价。并将验证结果反馈到超参数调优器中,对超参数进行调优后继续训练模型。
       为何要将历史数据划分为两个数据集呢?在统计模型世界中,任何事物的发生都假设是随机的,它们服从一个随机分布。模型便是从随机数据中学习而来的,因此模型也是随机的。并且这个学习的模型需要被一个随机的已观察到的数据集进行测试评估,因此测试结果也是随机的。为了确保准确性与公平性,需要使用一个与训练集独立的数据集对模型进行验证。必须使用与训练样本集不同的数据样本集进行测试,从而可以得到模型的泛化误差。那么如何产生一个新的数据集呢?
      在离线阶段,我们只有一个历史数据集合。那么如何去获得另一个独立的数据集呢?因此我们需要一种机制去产生另一个数据集。一种方式是留下一部分数据来作为验证集,如hold-out validation与cross-validation, 另一种方式是重采样技术,如bootstrapping与Jackknife。如下图所示:
    ![Alt text](./屏幕快照 2015-09-27 下午11.26.11.png)
      从上图可以看出,cross-validation与bootstrapping都是将数据集划分为多个较小的数据集,而hold-out validation只是将数据集划分为一大一小的两个部分,大的部分作为训练集,较小的部分作为验证集。

    Hold-out Validation

      Hold-out Validation较简单,它假设数据集中的每个数据点都是独立同分布的(i.i.d,independently and identically distributed)。因此我们只需要简单得将原数据集随机划分成两个部分,较大的部分作为训练集,用来训练数据,较小的部分作为验证集,用来对模型进行验证。
      从计算的角度来说,Hold-out Validation是简单的并运行时间快的。缺点便是它是强假设的,缺乏有效的统计特征,并且验证数据集较小,那么其验证的结果则可靠性较低,同时也很难在单个数据集上计算方差信息与置信区间。因此如果需要使用 hold-out validation方法,则需要足够的数据以确保验证集数据足够而确保可靠的统计估计。

    Cross-Validation

      Cross-Validation是另一种模型训练集与验证集的产生方法,即将数据集划分成多个小部分集合,如划分成k个部分,那么就变为了k-fold cross validation。依次使用其中的k-1个数据集对模型进行训练(每次使用k-1个不同的数据集),然后使用剩下的一个数据集对模型进行评价,计算评价指标值。接着重复前面的步骤,重复k次,得到k个评价指标值。最后计算这k个评价指标的平均值。其中k是一个超参数,我们可以尝试多个k,选择最好的平均评价指标值所对应的k为最终的k值。
      另一个Cross-Validation的变种便是leave-one-out。该方法与k-fold cross validation方法类似,只是k等于数据集中样本的总数目,即每次使用n-1个数据点对模型进行训练,使用最好一个数据点对模型进行训练。重复n次,计算每次的评价指标值,最后得到平均评价指标值。该方法又称为n-fold cross validation。
      当数据集较小时以致hold-out validation效果较差的时候,cross validation是一种非常有效的训练集-验证集产生方法。

    Bootstrapping和Jackknife

      Bootstrapping是一种重采样技术,翻译成自助法。它通过采样技术从原始的单个数据集上产生多个新的数据集,每个新的数据集称为一个bootstrapped dataset,并且每个新的数据集大小与原始数据集大小相等。这样,每个新的数据集都可以用来对模型进行评价,从而可以得到多个评价值,进一步可以得到评价方差与置信区间。
      Bootstrapping与Cross Validation交叉校验相关。Bootstrapping对原数据集进行采样生成一个新的数据集( bootstrapped dataset)。不同的是,Bootstrapping假设每个数据点都服从均匀分布。它采用的是一种有放回的采样,即将原始数据集通过采样生成一个新的数据集时,每次采样都是有放回得采样,那么这样在新生成的数据集中,可能存在重复的数据点,并且可能会重复多次。
      为什么使用有放回的采样?每一个样本都可以用一个真实的分布进行描述,但是该分布我们并不知道,我们只有一个数据集去推导该分布,因此我们只能用该数据集去估计得到一个经验分布。Bootstrap假设新的样本都是从该经验分布中得到的,即新的数据集服从该经验分布,并且分布一直不变。如果每次采样后不进行放回,那么这个经验分布会一直改变。因此需要进行有放回的采样。
      显然采样后得到的新数据集中会包含同样的样本多次。如果重复采样n次,那么原数据集中的样本出现在新的数据集中的概率为11/e63.2%,用另外一种讲法,原数据集中有约2/3的数据会在新数据集中出现,并且有的会重复多次。
      在对模型进行校验时,可以使用新生成的数据集( bootstrapped dataset)对模型进行训练,使用未被采样的样本集来对模型进行验证。这种方式类似交叉校验。
      Jackknife翻译成刀切法。Jackknife即从原始进行不放回采样m(m

    注意:模型验证与测试不同

      在前面一直都是使用“验证”这个词作为模型训练后需要进行的过程。而没有使用“测试”这个词。因为模型验证与模型测试不同。
      在原型设计阶段中,需要进行模型选择,即需要对多个候选模型在一个或多个验证集上进行性能评价。当在模型训练与验证确定了合适的模型类型(如分类中是采用决策树还是svm等)以及最优的超参数(如特征的个数)后,需要使用全部可利用的数据(包括前面对模型进行验证的验证集)对模型进行训练,训练出的模型便是最终的模型,即上线生产的模型。
      模型测试则发生在模型的原型设计之后,即包含在上线阶段又包含在离线监视(监测分布漂移 distribution drift)阶段。
      不要将训练数据、验证数据与测试数据相混淆。模型的训练、验证与测试应该使用不同的数据集,如果验证数据集、测试数据集与训练数据集有重叠部分,那么会导致模型的泛化能力差。
      就在前一段时间,某队在ImageNet(图像识别最大数据库)图像识别测试挑战赛竞赛宣称自己的效果击败了google和microsoft,图像识别错误率低至4.58%,而microsoft为4.94%,谷歌为4.8%。但是最后查出他们违规了,按照测试的官方规定,参与者每周只能向服务器提交2次测试结果,而他们却在5天内提交了40次结果。此外,ImageNet表示,他们还使用了30个不同的账号,在过去6个月中提交了约200次测试结果。从本质上讲,他们多次测试调优而得到了对测试数据集更好的拟合超参数和模型参数,因此模型的效果可能更好,但是可能会导致过拟合而使得模型的泛化能力差。

    总结

      本节主要对模型离线评估与模型离线验证进行讲解。
    * 在模型原型设计阶段,需要进行模型选择,包括超参数调优、模型训练、模型验证。
    * Cross validation是一种生成训练数据集与验证数据集的机制;该方式在数据集较小时特别有用。
    * Hyperparameter tuning是一种为模型选择最优的超参数机制,需要使用交叉校验来对超参数进行评估。
    * Hold-out validation是另一种训练数据集与验证集的产生方式,它较简单。当数据集较充分时使用。
    * Bootstrapping与Jackknife是两种不同的采样方式,用来产生训练集与验证集。该方法可以为模型提供评价指标值方差与置信区间。

    超参数调优(Hyperparameter Tuning)

      在机器学习领域,超参数调优是学习任务的先导步骤(meta),下面将对其进行介绍。

    模型参数与超参数

      什么是模型的超参数,它与模型正常的参数有什么不同。机器学习从本质上来说是一个数学模型,它代表着数据的各个方面的联系。
      例如:在线性回归模型中,使用一条线表示特征与目标之间的关系,用数学公式表示为 :

    y=wTx

    其中x是特征向量,每个样本使用一个特征向量进行表征,y是一个数值变量,代表目标,w则是每个特征的权值向量,代表着这条线的斜率。这个模型假设特征与目标之间是线性的。w表示模型的参数,需要在模型的训练阶段进行学习更新,也就是说,模型训练其实就是使用一种优化算法决定最优的模型参数来对数据进行拟合。
      另外一种被称为模型超参数。超参数的确定不是在模型的训练阶段。普通的线性回归是没有超参数的(除了特征的个数),而Ridge回归与Lasso回归都添加了正则项(Ridge岭回归加上L2正则项,Lasso回归加上L1正则项),这些正则项都需要一个正则参数(regularization parameter)。如决策树需要设置树的深度和叶子数、支持向量机(SVM)需要设置一个分类错误的惩罚因子、带核的SVM还需要设置核的参数(如RBF径向基函数的宽度)等。

    超参数的作用

       模型的超参数是用来干什么的呢?如正则化因子是来控制模型的能力,模型拟合数据的自由度(degrees of freedom)决定了模型的灵活度。合理的控制模型的能力能够有效得防止过拟合现象。因此为了防止过拟合的发生,需要牺牲一些精度。因此合理的设置模型的超参数则非常重要。
      另一种类型的模型超参数来自于模型的训练阶段。模型训练是一个使损失函数(或代价函数,训练阶段的评价指标)最小化的过程,这过程会用到很多最优化技术与方法,使用的最优化方法中需要用到一些参数。如SGD( stochastic gradient descent)中,需要一个学习速率因子、初始点以及收敛阈值等。又如,随机森林(Random Forests)和自助提升决策树(Boosted decision trees)需要设置树的个数的参数与正则化参数等等。这些超参数需要被合理地设置以找到一个好的模型。

    超参数调优机制

      超参数设置的好坏对模型的评价指标值产生较大的影响。不同的数据集上面创建模型会有不同的最优超参数,因此对于不同的数据集需要各自调优。
      如下图,超参数的设置过程为:首先设置一个初始的超参数值,然后进行模型训练,将模型的指标反馈都超参数调优机制中,调节超参数,继续训练模型,一直进行下去,若干次后得到一个目前最优的超参数值。最后使用该最优的超参数去训练模型,并进行模型验证。
    ![Alt text](./屏幕快照 2015-09-28 下午3.07.45.png)

    超参数调优算法

      从概念上讲,超参数调优是一个最优化任务过程,就像模型训练一样。然而,这两者之间相当的不同。在模型训练中,使用一个称为代价函数的数据公式为目标去进行对模型参数进行训练调优。而在超参数调优中,无法使用一个形式化的公式为目标去进行调优,它就像一个黑盒子,需要使用模型训练结束后的模型评价结果为指导去进行调优。这就是为什么超参数调优较为困难。下面是一些具体的超参数调优方法:

      顾名思义,格搜索便是将超参数的取值范围划分成一个个格子,然后对每一个格子所对应的值进行评估,选择评估结果最好的格子所对应的超参数值。例如,对于决策树叶子节点个数这一超参数,可以将值划分为这些格子:10, 20, 30, …, 100, …;又如正则化因子这一超参数,一般使用指数值,那么可以划分为:1e-5, 1e-4 1e-3, …, 1。有时可以进行猜测对格子进行搜索去获得最优的超参数。如,当从第一个开始,发现效果较差,第二个好了一点,那么可以第三个可以取最后一个。格搜索较为简单并且可以进行并行化。

      在论文 “Random Search for Hyper Parameter Optimization” (Bergstra and Bengio)中,已经验证了随机搜索是一个简单而有效的方法。它是格搜索的变种。相比于搜索整个格空间,随机搜索只对随机采样的那些格进行计算,然后在这中间选择一个最好的。因此随机搜索比格搜索的代价低。随机搜索有个缺点,即其可能找不到最优的点。但是前面的那篇论文已经证明,随机采样60个点的性能已经足够好了。从概率的角度来说,对于任何的分布的样本空间若存在最大值,那么随机采样60个点中的最大值位于整个样本空间top5%的值的集合中的概率达到95%。证明如下:
      对于top%5的值,我们每次随机采样,得到top5%的值的概率为5%,没有得到top5%的值的概率为(1-0.05),重复有放回地采样n次,那么至少有一次得到top5的值这件事发生的概率若要超过95%,则:

    1(10.05)n>=0.95n>=60

    这表示我们只需要从所有候选格中随机采样60个格,便可以以95%的概率得到至少一个的top5%最优的格。因此随机搜索60个格进行计算便可以以很高的概率得到top%5最优的格。当最优格以及近似最优格的集合较大,加上机器学习模型对超参数一个近似最优值与最优值不会太敏感,因此,随机搜索算法便是有效的。由于随机搜索简单并且有效,一般是超参数调优的首选搜索算法。并且其容易并行化。

      除了前面的两种搜索算法,还可以利用智能搜索算法,但是相对于前面的两种方法,智能搜索算法最大的缺点便是不能并行化。它的处理过程是一个序列,并只处理一部分候选点,然后对当前点进行评估,决定下一个点。智能搜索的目的是只对一部分点进行评估从而节省调优时间。
      可以看出,智能搜索需要时间去计算下一个评估的点,于是相对于前面的方法,可能需要更多的时间。因此只有在对点进行评估所用的时间大于决定下一个需要评估的点的时间时才有意义。当然智能搜索算法也需要自己的超参数,因此也需要调优。有时好的智能搜索算法超参数可以确保智能搜索快于随机搜索。
      文章前面提到,超参数调优是一个困难的过程,因为它不能想模型参数调优那样,给出一个形式化的数学函数,而对数学函数进行调优。因此很多优化算法,如牛顿优化算法、随机梯度下降算法都不能使用。目前有超参数三个智能调优算法:derivative-free optimization, Bayesian optimization和random forest smart tuning。derivative-free优化算法采用启发式来决定下一个计算的点;Bayesian和random forest优化算法都是创建一个响应函数曲面模型,由模型决定下一步需要计算的点。
      Jasper Snoek等使用高斯过程对响应函数进行建模。Frank Hutter等使用回归随机森林来近似这个响应曲面。 Misha Bilenko等使用Nelder-Mead来进行超参数调优。

    嵌套交叉校验(Nested Cross-Validation)

      嵌套交叉校验又称为嵌套超参数调优。模型选择与超参数调优的不同之处在于:模型选择不仅包括对某个模型的参数进行调优(如决策树的深度),并且包括对不同模型的选择(如分类中,选择决策树还是SVM)。嵌套交叉校验即在进行某个模型训练后,需要对该模型进行交叉校验,然后将结果反馈到超参数调优机制中,对超参数调优,并使用更新后的超参数继续训练模型,一直迭代下去,知道满足一定的要求,同时对其它模型也需要如此进行训练,最后在所有训练好的模型选择一个综合各方面因素最优的模型。

    A/B测试的陷阱

       A/B测试(A/B Testing)是机器学习实践中广泛应用的一种方法。但是在应用该方法时,会遇到一些陷阱。下面便对相关问题进行讨论。
      在本文的前部分已经讲述到,机器学习模型的评价分为离线评价与在线评价两个阶段。离线评价阶段发生在模型原型设计阶段,对不同的超参数、不同的特征集、不同模型进行评价,它是一个迭代的过程,使用选定的评价指标对每个迭代过程中生成的模型进行评价。一旦达到指定的迭代次数,则选择所有迭代中最优的模型,作为最终模型并投入到生产环境中使用。而在线评价则是使用一些商业评价指标来对模型进行评价以及更新。而A/B测试则属于在线测试。

    什么是A/B测试

      A/B测试是目前在线测试中最主要的方法。该方法可以用来回答“新的模型比旧的模型更好吗(模型)?”、“这个按钮是使用黄色好一些还是蓝色好(设计)”等等问题。在A/B测试中,与两个部分:A和B,或控制/实验(control and experiment),A代表旧模型(设计)的评价,B代表新的模型(设计)的评价,然后将它们进行对比,得到是否新的模型比旧模型更好。当然是由具体的机制来进行衡量。
      该衡量方法便是统计假设检验(statistical hypothesis testing)。其用来回答“新的模型或设计是否对一些关键的评价指标有着大幅度的提升或者明显的提升”。它包括两个对立的假设:空假设(null hypothesis)与替代假设(alternate hypothesis)。前者表示“新的模型或设计没有明显的提升”,后者则表示“新的模型或设计有了明显的提升”,“提升”具体反映在关键评价指标的平均值(mean value)等上面。
      有很多书籍与网上资源对A/B测试有着详细的描述,这里不再累赘。如 www.evanmiller.org,它对A/B测试进行了详细的讲解以及列举了一些工具。简而言之,A/B测试包括以下几个步骤:
    * 随机划分成两组A与B
    * 使用一些方法分别观察两组中的行为
    * 计算一些统计指标
    * 计算p-value
    * 最后输出孰好孰坏
      举个最简单的例子,在网页设计中使用A/B测试。首先需要建立一个测试页面(experiment page),这个页面可能在标题字体,背景颜色,措辞等方面与原有页面(control page)有所不同,然后将这两个页面以随机的方式同时推送给所有浏览用户。接下来分别统计两个页面的用户转化率,即可清晰的了解到两种设计的优劣。
      A/B测试虽然通俗易懂,但是要想正确的使用它则较为棘手。下面将介绍一些在使用A/B测试时可能会遇到的一些陷阱与问题,这些问题包括理论层面的和实践层面的。

    A/B测试的一些陷阱

    实验完全分离

      在A/B测试中,需要将用户随机分为两组。一部分用户使用旧的模型或设计(如浏览原来的网页),另一部分用户使用新的模型或设计(如浏览新设计的网页)。那么需要保证experimentation组(使用新的模型或设计的组)的用户的纯净度,什么意思呢?
      A/B测试中,划分为完全独立的,干净的两组是非常重要的。设想一下,在对网页中的按钮新样式进行测试时,需要确保统一用户自始自终是使用同一个按钮设计,那么我们在对用户进行随机划分时,就需要使用能够唯一代表用户的来进行划分(即导流),如用户ID,用户sessions等。Kohavi等的KDD 2012论文表明一些使用旧设计的用户再使用新的设计时会带着某着偏见。

    使用什么评价指标

      另一个重要的问题便是,在A/B测试中使用什么评价指标。因为A/B测试是在在线评价阶段,因此使用的评价指标便是商业指标。但是商业指标有没有离线阶段那些评价指标那么容易计算。举个例子,在搜索引擎中,一般对用户的数目、用户在结果站点的逗留时间、以及市场份额。在现实中,统计比较并不是那么容易,因此我们需要对独立用户每天访问数、平均会话时间长度等这些能够反映市场份额的指标进行计算,以便能够对市场份额进行估计。并且一般短期指标并不与长期指标保持一致。
      在机器学习过程中,一般会用到四种类型的评价指标,分别是:训练评价指标(training metrics)、离线评价指标(验证评价指标,offline evaluation metrics or validation metrics)、新生数据评价指标(live metrics)、商业指标(business metrics)。训练评价指标是指模型优化的评价指标,即代价函数(目标函数或损失函数),如在线性回归中使用平方误差和、svm中分类平面几何间隔最大化等。离线评价指标是指模型训练完毕需要使用验证数据集来对模型进行评价,即前面所提到的那些指标,如分类模型评价指标、回归模型评价指标以及排序模型评价指标等。新生数据评价指标即使用模型上线后新生成的数据来评价模型,评价指标同离线评价指标,只是评价所用的数据不同。而商业指标即系统真正关心的最终指标,如转化率、点击率、PV访问量、UV访问量等。每个阶段使用的评价指标不一样,并且这些指标可能并不呈现线性相关,如在回归模型中,随着RMSE的下降,但是点击率(click-through rates.)并没有提高,详细可以参见Kohavi‘s paper

    多少改变才算是真正的改变?

      当确定了使用什么商业指标进行评价以及如何去计算这些指标时,接下来需要明确指标值提升了多少才算正在的提升,即多少的提升才可接受。这在某种程度上取决于实验的观察者数量。并且与问题2一样,它并不是一个数据科学范畴的问题,而是一个商业问题。因此需要根据经验挑选一个合适的值。

    单面测试还是双面测试(One-Sided or Two-Sided Test)?

      单面测试只能告诉你新的模型是否比基准的是否更好,而无法告诉你是否更糟。因此需要进行双面测试,其不仅会告诉你新的模型是否会更好并且会告诉你是否更糟。是否更好与是否更糟需要进行分开对待。

    多少的FP(False Positives)能够忍受?

      比基准模型更好,但是实际上确不是。FP的代价取决于实际应用。如在医药中,FP意味着病人使用无效药,这样便会对患者的健康造成很大的威胁。又如在机器学习中,FP意味着会使用一个认为会更有效的但却未更有效的模型来代替单前的模型。而FN意味着放弃了一个实际上会更有效的模型。
      统计假设检验可以通过设定显著性水平( the significance level)控制FP的概率,并通过测试的力(the power of the test.)度来控制FN的概率。
      

    需要多少观察者?

      观察者的数量由期望的统计功效(statistical power)部分决定。而统计功效在测试进行之前便需设定。一个常见的尝试时运行测试直到观察到一个重要的结果。这个方法是错误的。测试的力度是能够正确识别那些正样本。它能够使用显著性水平、A组的评价指标值与B组的评价指标值之差、观察者的个数这些去形式化地表示。选择合理的统计功效、显著水平等。然后选择每组中观察者的数量。StitchFixEvan Miller’s website详细地进行了介绍。
      

    评价指标是否满足高斯分布

      A/B测试中绝大部分是使用T检验,但是T检验的所做出的假设前提并不是所有的评价指标都满足的。一个好的方法便是去查看指标的分布与检查T检验所做的假设是否有效。T检验假设是满足高斯分布的,那么评价指标释放满足高斯分布呢?通常,使用中心极限定理可以得到任何独立同分布并且具有期望与方差的随机变量都收敛于高斯分布。不难得出,评价指标假设以下条件成立:
    * 指标值是采用平均值
    * 指标值的分布是同一分布
    * 指标值分布是对称的
    但是还是会有一些指标不满足的,如点击率是一个平均值,但是AUC却是一个积分值。并且可能不服从同一分布,如在A/B组中的用户种群不一样。同时,也有可能不是对称的。Kohavi等例举了一些例子说明评价指标不服从高斯分布,在这些例子中,标准误差不会随着测试的进行而降低。比如那些计数评价指标服从负二项式分布。当这些假设不成立时,分布遍不再收敛于高斯分布。
      

    方差是否相等

      

    p-value意味着什么

      

    多模型,多参数

      

    测试的时间需要多长

      

    分布漂移问题

      

    后面的改天补上……

    原文地址:http://www.oreilly.com/data/free/evaluating-machine-learning-models.csp

    展开全文
  • 来源:《政府数据开放研究》作者:陈美 湖北工业大学经济与管理学院分析开放政府数据的价值评价,有助于政府数据开放更高效地开展。文章在界定开放政府数据价值内涵与层次划分的基...
        

    640?wx_fmt=jpeg

    来源:《政府数据开放研究》

    作者:陈美 湖北工业大学经济与管理学院


    分析开放政府数据的价值与评价,有助于政府数据开放更高效地开展。文章在界定开放政府数据价值内涵与层次划分的基础上,介绍国外开放政府数据价值评价进展,论述开放政府数据价值评价的意义,分析成本/效益理论、利益相关者理论、新公共服务理论作为开放政府数据价值评价支撑理论的指导意义。提出建立开放政府数据价值评价框架,关注国外开放政府数据价值及其评价的研究进展、注重开放政府数据价值及其评价的理论支撑、建立公共价值框架来对开放政府数据进行评价的建议。


    1、引言


    2017年5月27日,在贵阳市举行的2017年中国国际大数据产业数博会上,中国首个地方政府数据开放指数《中国地方政府数据开放平台报告》发布。这一报告定期发布“开放数林指数”,精心测量“数木”们的粗细、密度、材质与价值。为确定各个指标的权重,报告出品方邀请50多位我国数据开放领域的学者和数据开发利用专业人士组成专家评委会对各项评估指标的相对重要性进行排序,以反映第三方学术机构的专业视角和数据利用者们的实际需求,被排在最重要位置的指标是“数据集价值”。


    可见,各界对高价值数据具有较高需求,但开放政府数据价值是在价值评价基础上而得出,而且开放政府数据的价值创造和价值评价之间存在密切联系。然而,目前存在开放政府数据价值的研究相对较少,大多围绕案例、价值生成、商业模式等,但没有对开放政府数据价值与评价的内涵、理论支撑、意义和应用框架进行探讨。因此,本文从价值角度分析开放政府数据,以期丰富开放政府数据领域的价值理论。


    2、开放政府数据价值的内涵与层次划分


    2.1 开放政府数据价值的含义


    要认识开放政府数据价值,首先要明白公共价值的概念。公共价值观由Moore提出,他认为行政组织不可避免地要作出决策,因而管理者必须清楚最优决策的制定。正如民营组织创造私人价值一样,公共组织也应该为公民和其他利益相关者创造“公共价值”。伴随着商品和服务买卖并且交易产生利润,私人价值就产生了,而且这种价值比较容易辨别和衡量。但是,公共价值是政府生产社会福利的产品,而市场机制不能保证其得到平衡生产。一部分公共价值来源于这些利益的直接效用,另一部分来源于公平和公正性生产和分配,并通过公共机构适当的预算和生产来满足公众的需求。


    可见,诸如效率与效益的衡量标准不一定是衡量政府决策和服务的唯一评价标准或者主要衡量标准。因此,Moore提出了很多观点,如“政治中立原则”“政策分析”“项目评估”“顾客满意度调查”,这些不以结果导向的核心价值观可以确定公共部门中价值产品的范畴,从而打破传统的格局。就公共组织而言,其目标是通过公共价值来使公共机构满足公众需求。


    因此,结合对公共价值的理解,可以将开放政府数据价值表述为:开放政府数据价值是以开放政府数据这一形态通过对公众价值追求的满足而实现对公众的价值的直接表达和完整反映。结合公共价值可以发现,关于开放政府数据的价值,存在多元的价值取向,而且公众都有自己的看法,因而最终开放政府数据是否创造价值,是一个集体的判断。就自身特性而言,开放政府数据价值具有相对性,即随着时间的推移,形成的价值观念根据利益集团和阶级所在位置而发生改变。


    2.2 开放政府数据价值的层次分析


    随着公共事务日益复杂,公共部门认识到仅靠单一方法和工具难以实现有效治理,罗森布鲁姆在此基础上提出了多元公共行政观,强调从多元视角来研究公共行政。作为公共行政的范畴,开放政府数据价值也应当从不同角度进行理解。从管理学角度来看,一般管理理论代表人物法约尔认为,管理就是实行计划、组织、指挥、协调和控制。作为管理学的一个方面,政府数据资源管理同样服务于这几个层面。因此,开放政府数据价值的管理学层面包括:开放政府数据的决策价值、组织价值、领导价值和控制价值。这几个层面之间相互联系,最终实现管理的目的。


    从经济学角度来看,数据本身价值无法评价,而是通过数据服务来呈现。换言之,数据本身没有价值,而是由数据与其他因素的组合,如创新的想法、现有服务不足、新型数据处理技术(如“大数据分析”方法)或服务供给的新技术,如智能手机甚至“物联网”(如车载导航系统)。这些增值发生在政府数据再利用的价值链上,因而通过分析价值链,有助于更好地对政府数据增值产品与服务进行定性分析。澳大利亚政府在其发布的报告中提到,开放政府数据价值链模型包括数据创造、整合和组织、处理编辑和包装、开发和传播。


    为此,开放政府数据价值增值的经济学模型可以界定为:V=V0+∆V=V0+∆V1+∆V2。其中,V0是政府数据的初始价值;∆V是政府数据的增量价值,而且是与政府数据资源未被开发之前的价值含量进行对比得出;∆V1=f(数据加工、组织、整合、集成);∆V2=f(数据的应用、管理、控制)。因此,经济学角度的开放政府数据价值包括政府数据的基本价值和政府数据使用后的效果价值。


    3、国外开放政府数据价值评价进展


    英国陆地测量部委托ConsultingWhere和经济咨询公司伊索塔斯曼公司(ACILTasman)基于英国商业、创新和技能部的利益来评价OSOpenData(气象数据开放)的经济影响、成功与否以及相应好处,并告知陆地测量部开放数据的未来进展。这种评价使用自向上方法,该方法包括案例研究和可计算一般均衡模型(CGE)。评价结论包括:OS开放数据行动能在2016年为GDP贡献净收益1300万至2850万欧元,这些收益主要来自净生产力收益和额外的税收收入;在2016年真正的国家可支配收入增加1020万至2410万欧元。


    Manyika等以全球范围政府、企业和个人的开放数据为对象,采用自下而上方式,检查微观经济的产业趋势,从收入、存储和经济盈余角度发现开放数据如何创造经济价值,但未估计通过使用开放数据所能带来的社会利益。它估计开放数据所带来的潜在价值主要分布在七个领域:教育、交通、消费产品、电力、石油和天然气、健康保健和消费金融。结果显示,在全球范围开放数据,每年将产生3万亿美元的收益(约为全球GDP的4%)。该报告旨在推动公共部门和私营部门采用和管理开放数据的议程,并提出要解决专有数据的隐私和保护问题,才能实现开放数据的所有价值。该报告是唯一针对全球开放数据潜力的研究。


    Scgoe研究加拿大企业如何更好地获取和利用政府的高价值数据,从而释放强大经济潜力;回顾其他政府在收集、存储和转换开放数据方面的过程和实践;利用调查结果为政府提供关注方向和建议,即改善高价值数据的收集、存储和转换方式,从而促进公众有效存取和利用开放数据,推动作为信息经济一部分的经济增长。


    Ubaldi突出了开放政府数据计划制定的主要原则、概念和标准以及计划执行可能产生的问题。它强调开放政府数据的机会:开放政府数据和数据分析可以提供给政策制定者,使公共部门在这一议程上具有更全面了解。由于几乎没有分析和证明开放政府数据计划的影响和精确价值,因而该研究提出了一个针对开放政府数据的分析框架(适用于计划的事后和事前分析)和一组在整个OECD国家所收集的相关数据。据此,它得出结论:开放政府数据免费,可以产生更多的再利用者,进而可以刺激经济以及向政府提供税收收入;数据应该以机器可读和开放格式发布,而这需要在IT基础设施、技能和时间上进行大量投资。


    WorldBank研究开放数据的经济潜力,认为尽管发布的开放数据经济潜力的估算不断变化,而且估算方法存在困难,但潜力确实非常大。它回顾了那些十年前并不存在而后来使用开放数据的企业的最新数据。结果显示,这些企业都是受开放数据所驱动,并且现在价值至少10亿美元。它讨论了使用开放数据的五个典型的企业,并一一列举了具体例子,阐述了被证明最有可能导致普遍的业务采用和创新的数据类型。在此基础上,它提出了一些政策建议和行动,促使政府可以从它们数据中获得最大的经济增长。在政府运作的过程中,数据被收集旨在协助制定政策、资源分配或满足立法要求,数据收集本身被证明是合理的。


    此外,许多国际研究报告也对开放政府数据的价值进行评价。


    4、开放政府数据价值评价的意义


    4.1 有助于政府数据资源配置,提供决策支持


    作为开放政府数据中的重要环节,开放政府数据评价得到图书情报学的日益关注。当前,具有代表性的评价项目包括:联合国的“开放政府数据调查”、经济合作与发展组织的“开放政府数据指数”、开放知识基金会的“全球开放数据指数”、万维网的“开放数据晴雨表”、世界银行的“开放数据准备度”。尽管这些项目从不同评估视角,利用不同评估指标和方法来进行评估,但“实际上重点关注开放政府数据的评估,特别是经济以及公共和社会价值的实现”。为了更好地通过以评促发展,有必要在对政府数据的开放情况进行评估的基础上,加强对开放政府数据价值进行评估,以明确政府数据开发利用的成效。


    实际上,20世纪70年代以来,随着各国政府面临财政、管理等一系列危机,各国政府开始主张以私营部门的管理方式来提高政府绩效。各国对电子政务建设的投入越来越大,“电子政务投资黑洞”问题也得到政府及服务对象的关注。于是,各国政府积极引入企业管理理念和方法,而这一方法注重成本-效益分析,能够剖析开放政府数据投资中的“黑洞”现象,对“IT生产率悖论”进行更清晰的解释,为开放政府数据领域的投资项目提供了投资后评价方法。这种研究转换思维,将研究视角转向开放政府数据的产出上,促使政府调整开放政府数据上的经费投入,形成具有科学化的投资决策。


    4.2 有助于掌握开放政府数据创新效用,
          制定优化的价值实现策略


    当前存在的一个困难是,如何衡量开放数据对政府部门所产生的利益。像其他消费者一样,公共机构也是数据服务的购买者。事实上,在某些情况下,政府数据被数据服务提供商进行聚合或浓缩后,被政府买回。过去五年,政府使用开放数据的数量已经得到巨大突破:从加拿大英属哥伦比亚省开放数据门户上数据下载的三分之一都是来自本省的互联网地址;西班牙加泰罗尼亚地区对欧盟指导的INSPIRE项目所托管的地理空间数据开放元数据,使公共部门节约了成本和提高了效率,使其六个月就收回了四年的开发成本。


    可见,政府数据得到开放利用,但有待评价的是:大规模组合数据源和模式所产生的新知识;开放政府数据影响数字服务和信息服务的创新,还能从多大程度上影响更广泛的公共部门改革;数据驱动的创新能带来多大好处。例如,在一些案例中,数据驱动的创新所带来的好处可能会从一个产品或服务向另一个产品或服务来转移消费,或者从一个企业转移到另一个企业,因而这仅仅是价值再分配而不是价值创造。必须回答的问题是,数据驱动的创新产生多少“新”或“额外”的价值。一般来说,人们不清楚公共和私营部门产品和服务的全部范围,因而作为其中重要组成部分的政府数据也没有得到全面了解。通过对开放政府数据开展各项服务的效益进行调查和分析,有助于弄清这些服务能够产生多大效益。这些分析结果有助于国家和社会了解开放政府数据所带来的显著效益,从而制定优化的价值实现策略。


    5、开放政府数据价值评价的支撑理论


    5.1 成本效益分析


    成本-效益分析是以经济学的价值理论来评价某项投资建设的成本和效益的一种方法,它以寻求在投资决策上如何以最小的成本获得最大的收益为目的。当前,各国纷纷投资来挖掘大数据金矿,如美国国家气象服务每年向私营气象行业资助约15亿美元;2012年美国政府投资2亿美元推动大数据的核心技术研发;美国国防部计划每年投资2.5亿美元开展一系列大数据研究。在此背景下,人们关心的问题是,随着公共资金对开放政府数据投入的加大,开放政府数据为社会带来什么。因此,有必要从经济学的角度,通过衡量成本和收益来评价开放政府数据价值。开放政府数据创造的价值包括直接价值和间接价值。


    前者是指通过开放政府数据对生产或消费所产生的直接效果,主要通过如下方面体现:开发新型产品和服务、提高税收收入、产生就业机会等投资价值和市场价值。后者是指通过开放政府数据能间接产生的效益。例如,开放政府数据能够加强公民参与、促进政府之间的跨部门合作、推动公共服务智慧化供给等数据利用所产生的社会和经济影响。在具体评价操作中,也可以借鉴成本效益分析中消费者剩余方法、意愿支付方法、时间成本方法来开展价值评价。基于以上分析可知,利用成本-效益分析法来进行开放政府数据价值评价,是必要而且可行的。


    5.2利益相关者理论


    1963年,美国斯坦福研究所(StanfordResearchInstitute)首次使用了“利益相关者”这一术语,并认为对企业来说存在这样一些利益群体,如果没有他们的支持,企业就无法生存。1984年,弗里曼(R.EFreeman)出版了《战略性管理:一种利益相关者方法》一书,明确提出了利益相关者管理理论,并在1988年将利益相关者定义为:“那些因公司活动受益或受损,其权利也因公司活动而受到尊重或侵犯的人”。在开放政府数据中,利益相关者主要包括政府组织、非政府组织、个人。


    对于政府而言,开放政府数据在政府业务、决策制定和资源分配发明和提供了新的运作方式,从而改善政府运作效率。对于非政府组织而言,开放政府数据有助于社会组织通过对政府数据利用来改善服务交付、保护环境等,推动商业组织在追求商业性开发并提供创新的增值服务。对于个人而言,开放政府数据促使公众参与,如通过新开发的应用程序共同发展和合作生产的服务。众多利益相关者之间价值的分布将根据其特定的兴趣和对政府数据的期望而不同,它们从政府数据开放中所得到的好处也不同。因此,开放政府数据的每个行动应为各种来自组织内外的利益相关者提供价值,而且在开放政府数据价值评价中应当考虑这些多元利益要求进行评价。


    5.3 新公共服务理论


    罗伯特·登哈特夫妇提出的新公共服务理论对开放政府数据价值评价具有重要的理论指导意义。所谓的“新公共服务”,指的是关于公共行政在以公民为中心的治理系统中所扮演的角色的一套理念。它的主要核心思想为:服务于公民,而不是服务于顾客;追求公共利益;重视公民权胜过重视企业家精神;思考要具有战略性,行动要具有民主;承认责任并不简单;服务,而不是掌舵;重视人,而不只是重视生存率。该理论强调注重公民权,突出公共服务中的公民导向,并对公民服务需求进行积极回应。同样,开放政府数据作为一项重要的公共服务,政府在向公民提供这项服务时,应当强调服务质量,提供高价值的政府数据;政府在开放数据时,应当以公民为中心,依照公民的信息需求作为开放数据的依据,促使它们能够通过社会性开发和商业性开发,从而创造价值;科学确定开放政府数据价值评价的基本原则,确立以公众为本的价值评价观念,选择适当的评价方法。


    6、开放政府数据价值评价框架


    公共价值理论的基石存在于政府行动和它所能产生的各种公共价值之间的联系。为了明晰开放政府数据在多大程度上产生价值以及如何产生价值,有必要利用一个框架来确定开放政府数据活动的价值,这一框架包括开放政府数据价值类型以及开放政府数据价值生成器。开放政府数据价值可以通过囊括可能得到的六种主要影响类型来表述,即开放政府数据在如下六种类型中产生影响,从而产生不同的价值。


    其中,前四种类型是影响私人利益的个人或团体,其他两种类型是社会的民主结果。从这六种基本的价值影响类型,可以思考关于价值是怎么被创造的这一难题。价值是由价值生成机制所产生,确定这种机制有助于详细说明开放政府数据与一种或多种公共价值联系起来的方式,揭示了开放政府数据如何促进价值创造。根据这一框架,影响透明度,参与和合作的行为属于价值创造群体。例如,通过开放政府数据,公众获取可提高有关政府官员的行动或操作程序的有关政府官员的行动或操作程序,从而创造价值。作为一个整体,开放政府数据的价值生成器包含了各种不同类型。


    综上所述,将开放政府数据价值类型和开放政府数据价值生成机制联系起来,使开放政府数据项目是如何产生一种或多种公共价值变得清晰起来。例如,一个关于许可证在线申请的IT投资可能会增加效率和效果,并且对拥有这种许可证的利益相关者产生战略或经济上的公共价值。这一框架有助于明确:开放政府数据会达到使一个公民获得潜在的经济型、社会型、政治型或者是战略型的价值,或是和政府有关的内在价值。


    例如,当提供环境数据的时候,公民就可以得到两种价值。一方面,一个公民通过获取社区有毒化学品的数据,从而为自身家庭和社区获得社会福利,同时也会对提供数据的政府机构有更大的信任和拥护。另一方面,了解有毒化学品排放的公民会起诉相关责任的公司,因而对利益相关者的企业产生负面公共价值。另一种可能是,一些政府内部利益相关者可能通过开放这个数据而产生积极的政治和战略价值,因为它符合开放政府的要求,另外一些内部利益相关者会将此视为负面的政治影响。因此,确定任何开放政府数据的价值需要对众多利益相关者的看法进行分析,这就需要对正面和负面的影响进行定义和理解。


    7、结语


    政府数据资源蕴含价值,从公共价值角度探讨开放政府数据价值含义,基于多元视角来解读开放政府数据价值的层次,有助于对开放政府数据价值的评价。随着开放政府数据在各个国家的推进,这一领域也成为研究重点和热门话题。就我国而言,研究起步相对较晚,对开放政府数据价值及其评价关注较少,因而有必要关注国外开放政府数据价值及其评价的研究进展,从而充实相关研究领域的内容并将我国的研究结果与国外进行对照。开放政府数据价值及其评价是一项实践性很强的工程,因而有必要从经济学、管理学等角度来提供理论指导,从而明晰开放政府数据价值评价的理论基础。为了更好地确定开放政府数据活动的价值,有必要建立公共价值框架来对开放政府数据进行评价。



    未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


    未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

      如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

    640?wx_fmt=jpeg

    展开全文
  • 这是最近读sutton的“reinforcement learning - An introduction”的读书笔记,其实大多数更像是按照自己理解写的中文翻译,可能语言有时没有...第一章是概述,更多的是从宏观上讲强化学习的一些概念和思想,虽然...

    这是最近读sutton的“reinforcement learning - An introduction”的读书笔记,其实大多数更像是按照自己理解写的中文翻译,可能语言有时没有那么严谨,主观因素多一点,更像是一种和自己的对话。希望各位看官多多包涵,如果想真正理解一些,最好对照着英文原本看,也许能看出自己的想法。

    这次第一篇就写第一章。第一章是概述,更多的是从宏观上讲强化学习的一些概念和思想,虽然概括性较强,但也还是有很多值得细读的点,在下文一一道来。

    1、强化学习中的基本元素:

    policy --相当与环境和动作之间的一个映射,某种环境下最应该做什么动作呢?这个是由policy决定的。policy的所有可能组成一个policy空间,强化学习的目的,就是在这个巨大的空间中,学习到某一种最优的policy。

    reward function -- 也可以看成是一个映射,关于当前的动作,或者当前环境和当前动作的pair的好不好的一个评价。属于立即评价,只考虑当前这一步的好坏。

    value function -- 和上面的reward function对比着看,这一步考虑的是当前环境状态的长远优势,也就是以当前状态为起点,以后的多个时间点之后的各个状态的reward之和。如何更好的估计这个值,是几乎所有增强学习问题的解决重点和难点。这个也是如何评定一个policy好坏的标准。也是把增加学习和evoluation method (例如遗传算法)区别开的地方。

    model of environment -- 对环境的建模。这个模型有点预测环境的走向的意思。比如,假如我有了这个模型,我可以知道在当下的环境下,下一步的环境状态和reward是什么。这样,我就不必去真实的走这一步,就已经知道结果了,也就是不用非得试错了。这是个新的发展方向。

    关于evolution method 要多说点:它和强化学习的区别在于,它不利用任何你的过程信息,只使用结果。比如我采用某一个policy,我就用这固定的policy和环境进行多次实验,看看最后的结果概率分布,然后知道这个policy有多大概率赢。然后换下一个,继续大量实验。最后在policy空间里找到一个最优的。它的缺点是忽略了大量的实验过程信息,也即根本没有考虑到value function。


    2、tik-tok-toc游戏中的实例

    关于value function的更新规则,"temporal difference learning method"

    v(s) \leftarrow v(s)+\alpha[v(s^{'})-v(s)]

    if the step-size parameter is reduced properly over time, this method converges, for any fixed opponent, to the true probabilities of winning from each state given optimal play by our player

    从这个游戏中,可以引申出几个点的思考:

    (1)先验知识的运用,可能改善学习效果

    (2)强化学习的动作,除了像这个游戏这种离散的,也可能是连续的,reward函数也可能是连续函数。

    (3)强化学习的状态集可能比这个游戏所有的大的多,如何保证在大的状态集上表现良好(具备很强的泛化能力),监督学习是一个好途径。

    (4)如果能获得或者学习到一个环境模型,那么会更好的改善学习效果。

    展开全文
  • 区块链概念

    千次阅读 2018-06-08 17:16:00
    二、价值转移的本质 三、什么是比特币 3.1 诞生 3.2 技术解决方案 3.3 比特币的发行模式 四、什么是区块链 定义 五、比特币与区块链的关系 六、区块链的类型与特点 6.1 公有链 6.2 私有链 6.3 联盟链 七、...
  • 为了解决这样的问题,在下文中也提出了其他的评价指标。 参考文章: http://www.cnblogs.com/dolphin0520/archive/2012/10/29/2733356.html 相关概念综述: 这里借用一个引例来介绍关联规则挖掘。 ...
  • 软件测试--概念

    千次阅读 2018-08-11 08:56:33
    本文介绍下软件测试的基本概念,以使大家对软件测试行业有一个基本的了解。 主要分三部分介绍:发展综述、职业发展、核心技能。 第一部分:发展综述 1、BUG/Defect的由来 “Bug”的创始人赫柏的报告格蕾丝.郝柏...
  • 自我概念

    千次阅读 2014-09-21 16:57:36
    自我概念 自我图式:我们组织自己所出世界的心理末班
  • 产业价值

    千次阅读 2016-01-01 23:31:33
    价值概念是由哈佛商学院教授迈克尔·波特(Michael Porter)1985年在《竞争优势》(Competitive Advantage)一书中提出的。他认为,“每一个企业都是在设计、生产、销售、发送和辅助其产品的过程中进行种种活动的...
  • 模糊综合评价法及Python实现

    千次阅读 2020-05-01 22:11:47
    模糊综合评价法的特点在于,评价对象逐个进行,对评价对象有唯一的评价值,不受评价对象所处对象集合的影响。 模糊综合评价的数学模型分为一级模型和多级模型,一级模型也称为单层次评价模型。首先对影响总目标的多...
  • 无参考图像清晰度评价

    万次阅读 2016-03-16 13:07:17
    无参考图像清晰度评价
  • 财务会计基础(一)概念

    万次阅读 2017-04-19 10:35:57
    财务会计概念框架是以财务会计的基本假设为前提、以目标为导向而形成的一整套相互关联、协调一致的概念(理论)体系。它由基本假设、会计目标、会计信息质量特征和会计要素的确认及计量四部分组成。一、会计基本假设...
  • 多指标综合评价方法汇总

    万次阅读 多人点赞 2016-10-27 22:59:08
    写在前面上学的时候,有一门综合评价的课程,那时候没觉得以后会用到它,现在才发现是那么实用,实际应用中如果采用单指标进行评价给人的感觉总是有偏驳的,除非是那种极其可靠且明确其重要性的指标。近期基本上把老...
  • 评价函数

    千次阅读 2016-10-18 17:26:21
    评价函数   David Eppstein */文 * 加州爱尔文大学(UC Irvine)信息与计算机科学系   整体考虑 在你的程序中,评价函数综合了大量跟具体棋类有关的知识。我们从以下两个基本假设开始: ...
  • 2019区块链概念股龙头

    千次阅读 2019-03-06 21:52:48
    比特币的价值不是用生产和劳动来评价的,中本聪发明比特币后,最核心的是产生信任,难道信任没有价值吗?信任和价值是同时存在的。 比特币还是灾难储备性资产,这点对我们国不重要,但大家想象下在因为灾难或者战乱...
  • 人才吸引力评价研究

    万次阅读 多人点赞 2018-12-03 14:04:43
    人才吸引力评价模型研究 摘要 人才的吸引,是一个城市发展的重要步骤。为了保持良好的创造力和城市的活力,必须调整城市的各个方面来提高人才吸引力进而引入大批优秀人才,形成良好的循环。影响一个城市人才吸引力...
  • 超分概念集锦

    千次阅读 2019-08-04 21:59:10
    超分概念 超分辨率(Super Resolution,SR),与超分相对应的是低分辨率图像(Low Resolution,LR),以及经常作为Ground Truth的高分辨率图像(High Resolution, HR)。 超分辨率是一项底层图像处理任务,将低分辨率...
  • 价值观选择到重构思维模型

    千次阅读 2018-07-29 02:08:57
    今天,我想谈谈价值观和思维模型,这可能是我们平时很少思考,但是却深刻影响着我们的行为和思想的东西,这些概念比较抽象,讲得不好请还望批评指正。   1、什么是价值观? 维基百科的是这样定义的:价值观是一...
  • 8.1.2 系统评价决策模型的基本概念 8.1.3 系统评价决策模型的要素 8.1.4 系统评价决策模型的步骤 8.1.5 评价指标的规范化处理 1.评价指标类型的一致化处理 2.评价指标的无量纲化 8.1.6 系统评价模型的建立 1....
  • 综合评价方法(一)------基础知识

    千次阅读 2019-08-09 18:09:43
    一、基本概念 评价评价主体根据一定的评价目的...综合评价:通过一定的数学模型将多个评价指标值“合成”为一个整体的综合评价值。 二、综合评价问题的五个要素 被评价对象:被评价者,统称为评价系统。 评价指...
  • 笔者寄语:机器学习中交叉验证的方式是主要的模型评价方法,交叉验证中用到了哪些指标呢? 交叉验证将数据分为训练数据集、测试数据集,然后通过训练数据集进行训练,通过测试数据集进行测试,验证集进行验证。 ...
  • 数学建模综合评价方法

    千次阅读 2020-10-07 21:37:18
    数学建模学习 综合评价总结1 总结分析: 1.层次分析法(AHP) (不做讨论) ...(优点:原理简单,能同时进行多个对象评价,计算快捷,结果分辨率高、评价客观,具有较好的合理性和适用性,实用价值
  • 推荐系统——基本概念

    千次阅读 2015-04-18 17:38:31
    帕洛阿尔托研究中心的Tapestry系统(Goldberg et al.1992)引入了协同过滤的思想和概念,展示了如何将显示标注数据和隐式行为数据注入可查询的数据库中,以及用户如何利用这些数据进行个性化过滤。 Grouplens系统...
  • 数据库知识基本概念

    万次阅读 2017-11-15 13:18:38
    数据库知识基本概念最近在学习数据库原理与应用,自己理解着整理出了一些基础的概念,有不同意见可以留言讨论: 数据和信息 数据库系统的组成 数据管理技术的发展阶段 *数据库系统的发展过程和发展趋势 数据模型 ...
  • 概念地图

    千次阅读 2004-07-18 05:10:00
    问题化学习专栏 概念地图:原理及作用 顾小清 郑颖 1 概述 传统的教学受行为主义学习理论的影响,把教学看作从教师到学习者的信息传递的过程,认为信息的呈现方式影响着学习的结果 。因此,教学的艺术变成了信息呈现...
  • 自然语言处理当中评价指标汇总

    千次阅读 2017-05-11 15:03:26
    自然语言处理当中评价指标很多,好多专用的术语,本篇旨在对常用的评价指标汇总,督促自己系统学习,大家当做参考不足之处请指出并做交流。 文本分类评测指标如下: P-R曲线的比较: 对于A和B曲线,如果需要...
  • 大数据推荐算法概念简述

    千次阅读 2019-10-30 15:55:37
    概念 如何协同过滤,来对用户A进行电影推荐? 2、内容推荐 概念 如何通过基于内容的推荐,来对求职者A进行职位推荐? 3、相似性推荐 概念 在给新用户推荐电影的场景中,相似性推荐算法是如何工作的? 4、...
  • 图像配准概念

    千次阅读 2019-05-28 21:23:34
    肺是典型的运动变形器官, 呼吸运动会导致肺局部和全局的非刚性形变, 使不同时相的肺部影像存在较大的差异, 从而制约了配准精度,关键技术:形变模型,相似性度量,正则化方法,优化策略,和评价方法   1. ...
  • 效能评估概念

    千次阅读 2019-03-08 10:53:44
    军事装备的效能评估,是对装备的单项效能、系统效能或作战效能做一科学评价,得出其效能的定量或定性描述。根据军事装备效能评估的目的和内涵,在具体操作中可以将军事装备效能评估分为以下 5个基本步骤: ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 39,480
精华内容 15,792
关键字:

价值评价的概念