精华内容
下载资源
问答
  • 通过各种商业智能系统对历史数据进行系统分析,找出规律或者发现潜在问题,再结合管理者的智慧制订出策略来,这是很多企业的决策者习惯...最大化数据价值 分析能力正在成为越来越多企业日益倚重的技术手段。在IDC...

    通过各种商业智能系统对历史数据进行系统分析,找出规律或者发现潜在问题,再结合管理者的智慧制订出策略来,这是很多企业的决策者习惯的决策流程。随着市场竞争日趋激烈,很多组织越来越依赖于商业智能系统来辅助决策,这给IT部门带来了很大压力。因为我们已经进入了“大数据(Bigdata)”时代,此时,数据的准备和分析难度已经今非昔比。

    最大化数据的价值

    分析能力正在成为越来越多企业日益倚重的技术手段。在IDC去年年底预测的2011年10大破坏性技术中,分析能力与云计算、移动设备、社交网络等热门技术一起名列其中。IDC认为这些技术日渐成熟并逐渐成为主流。很显然,作为专注于数据仓库技术和数据分析技术的Teradata,对该技术的每一步进步都有切身体会。

    “数据和分析的业务价值已经毋庸置疑,甚至可以说分析的重要性从来没有像现在这么突出,越来越多的企业开始设法从海量数据中找出二次和三次商业机会。对我们而言,就是要利用自己的产品和技术帮助这些企业从各种各样的数据中找到这些商业机会,实现数据价值的最大化。”Teradata天睿公司应用及业务拓展执行副总裁兼首席营销官DarrylMcDonald在Teradata5月20日召开的第11届大中华区数据仓库和企业分析峰会上表示。共有500多位业内专家和用户代表参加了本次会议,他们就如何解决“大数据”时代的分析难题、如何应对数据社交化等与数据价值有关的热点问题进行了深入探讨。

    DarrylMcDonald认为,随着数据的日益庞大和复杂,相关的分析技术也在不断改进,而Teradata也正在通过自己研发和并购等多种手段强化自己的服务能力。这包括先后收购整合营销管理软件供应商Aprimo和具有强大的非结构化数据分析能力的AsterData公司,以及推出满足各种级别需求的强大数据仓库平台等。

    “大数据”的分析

    “大数据(BigData)”是近来很流行的一个词汇,也是本次大会上谈得最多的话题之一。Teradata认为现在已经进入“大数据时代”。这个时代的特征之一是数据成指数级增长;另一个更为重要的特征是数据类型多且复杂。比如,随着社交网络、移动计算和传感器等新的渠道和技术不断涌现,出现了大量新型数据,与过去主要是结构化数据不同,如今有一半以上的公司面对的最主要的数据类型是半结构化或者非结构化的,如XML、邮件、博客、即时消息等。商业智能等分析系统必须采取办法应对这些问题。

    “大数据时代的来临已经毋庸置疑。只有那些能够运用这些新数据型态的企业,方能打造可持续的竞争优势。”Teradata天睿公司首席技术官宝立明表示,新的数据世界需要有新的数据处理能力来处理各种新的数据源,需要有新的分析能力(而非传统的SQL)来发现新的趋势,同时,还要提供新的功能来满足企业的新需求。

    为了帮助企业应对“大数据”时代带来的挑战,Teradata正在设法增强其在非传统数据方面的分析能力。比如,新收购的AsterData就突破了SQL分析的限制,其独有的SQL-MapReduce分析技术可以对包括社交网络在内的多种数据进行分析和挖掘,从而为企业提供深入的业务智能,以完全发挥“大数据”蕴藏的商业机会。

    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    如何利用数据赚钱?大数据价值变现的10种商业模式及利弊分析
    http://www.duozhishidai.com/article-8948-1.html
    如何让隐藏在大数据背后的价值发挥出来?
    http://www.duozhishidai.com/article-6860-1.html
    大数据时代来临,大数据的价值主要体现在哪几个方面?
    http://www.duozhishidai.com/article-927-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 来源:《政府数据开放研究》作者:陈美 湖北工业大学经济与管理学院分析开放政府数据的价值与评价,有助于政府数据开放更高效地开展。文章在界定开放政府数据价值内涵与层次划分的基...

    640?wx_fmt=jpeg

    来源:《政府数据开放研究》

    作者:陈美 湖北工业大学经济与管理学院


    分析开放政府数据的价值与评价,有助于政府数据开放更高效地开展。文章在界定开放政府数据价值内涵与层次划分的基础上,介绍国外开放政府数据价值评价进展,论述开放政府数据价值评价的意义,分析成本/效益理论、利益相关者理论、新公共服务理论作为开放政府数据价值评价支撑理论的指导意义。提出建立开放政府数据价值评价框架,关注国外开放政府数据价值及其评价的研究进展、注重开放政府数据价值及其评价的理论支撑、建立公共价值框架来对开放政府数据进行评价的建议。


    1、引言


    2017年5月27日,在贵阳市举行的2017年中国国际大数据产业数博会上,中国首个地方政府数据开放指数《中国地方政府数据开放平台报告》发布。这一报告定期发布“开放数林指数”,精心测量“数木”们的粗细、密度、材质与价值。为确定各个指标的权重,报告出品方邀请50多位我国数据开放领域的学者和数据开发利用专业人士组成专家评委会对各项评估指标的相对重要性进行排序,以反映第三方学术机构的专业视角和数据利用者们的实际需求,被排在最重要位置的指标是“数据集价值”。


    可见,各界对高价值数据具有较高需求,但开放政府数据价值是在价值评价基础上而得出,而且开放政府数据的价值创造和价值评价之间存在密切联系。然而,目前存在开放政府数据价值的研究相对较少,大多围绕案例、价值生成、商业模式等,但没有对开放政府数据价值与评价的内涵、理论支撑、意义和应用框架进行探讨。因此,本文从价值角度分析开放政府数据,以期丰富开放政府数据领域的价值理论。


    2、开放政府数据价值的内涵与层次划分


    2.1 开放政府数据价值的含义


    要认识开放政府数据价值,首先要明白公共价值的概念。公共价值观由Moore提出,他认为行政组织不可避免地要作出决策,因而管理者必须清楚最优决策的制定。正如民营组织创造私人价值一样,公共组织也应该为公民和其他利益相关者创造“公共价值”。伴随着商品和服务买卖并且交易产生利润,私人价值就产生了,而且这种价值比较容易辨别和衡量。但是,公共价值是政府生产社会福利的产品,而市场机制不能保证其得到平衡生产。一部分公共价值来源于这些利益的直接效用,另一部分来源于公平和公正性生产和分配,并通过公共机构适当的预算和生产来满足公众的需求。


    可见,诸如效率与效益的衡量标准不一定是衡量政府决策和服务的唯一评价标准或者主要衡量标准。因此,Moore提出了很多观点,如“政治中立原则”“政策分析”“项目评估”“顾客满意度调查”,这些不以结果导向的核心价值观可以确定公共部门中价值产品的范畴,从而打破传统的格局。就公共组织而言,其目标是通过公共价值来使公共机构满足公众需求。


    因此,结合对公共价值的理解,可以将开放政府数据价值表述为:开放政府数据价值是以开放政府数据这一形态通过对公众价值追求的满足而实现对公众的价值的直接表达和完整反映。结合公共价值可以发现,关于开放政府数据的价值,存在多元的价值取向,而且公众都有自己的看法,因而最终开放政府数据是否创造价值,是一个集体的判断。就自身特性而言,开放政府数据价值具有相对性,即随着时间的推移,形成的价值观念根据利益集团和阶级所在位置而发生改变。


    2.2 开放政府数据价值的层次分析


    随着公共事务日益复杂,公共部门认识到仅靠单一方法和工具难以实现有效治理,罗森布鲁姆在此基础上提出了多元公共行政观,强调从多元视角来研究公共行政。作为公共行政的范畴,开放政府数据价值也应当从不同角度进行理解。从管理学角度来看,一般管理理论代表人物法约尔认为,管理就是实行计划、组织、指挥、协调和控制。作为管理学的一个方面,政府数据资源管理同样服务于这几个层面。因此,开放政府数据价值的管理学层面包括:开放政府数据的决策价值、组织价值、领导价值和控制价值。这几个层面之间相互联系,最终实现管理的目的。


    从经济学角度来看,数据本身价值无法评价,而是通过数据服务来呈现。换言之,数据本身没有价值,而是由数据与其他因素的组合,如创新的想法、现有服务不足、新型数据处理技术(如“大数据分析”方法)或服务供给的新技术,如智能手机甚至“物联网”(如车载导航系统)。这些增值发生在政府数据再利用的价值链上,因而通过分析价值链,有助于更好地对政府数据增值产品与服务进行定性分析。澳大利亚政府在其发布的报告中提到,开放政府数据价值链模型包括数据创造、整合和组织、处理编辑和包装、开发和传播。


    为此,开放政府数据价值增值的经济学模型可以界定为:V=V0+∆V=V0+∆V1+∆V2。其中,V0是政府数据的初始价值;∆V是政府数据的增量价值,而且是与政府数据资源未被开发之前的价值含量进行对比得出;∆V1=f(数据加工、组织、整合、集成);∆V2=f(数据的应用、管理、控制)。因此,经济学角度的开放政府数据价值包括政府数据的基本价值和政府数据使用后的效果价值。


    3、国外开放政府数据价值评价进展


    英国陆地测量部委托ConsultingWhere和经济咨询公司伊索塔斯曼公司(ACILTasman)基于英国商业、创新和技能部的利益来评价OSOpenData(气象数据开放)的经济影响、成功与否以及相应好处,并告知陆地测量部开放数据的未来进展。这种评价使用自向上方法,该方法包括案例研究和可计算一般均衡模型(CGE)。评价结论包括:OS开放数据行动能在2016年为GDP贡献净收益1300万至2850万欧元,这些收益主要来自净生产力收益和额外的税收收入;在2016年真正的国家可支配收入增加1020万至2410万欧元。


    Manyika等以全球范围政府、企业和个人的开放数据为对象,采用自下而上方式,检查微观经济的产业趋势,从收入、存储和经济盈余角度发现开放数据如何创造经济价值,但未估计通过使用开放数据所能带来的社会利益。它估计开放数据所带来的潜在价值主要分布在七个领域:教育、交通、消费产品、电力、石油和天然气、健康保健和消费金融。结果显示,在全球范围开放数据,每年将产生3万亿美元的收益(约为全球GDP的4%)。该报告旨在推动公共部门和私营部门采用和管理开放数据的议程,并提出要解决专有数据的隐私和保护问题,才能实现开放数据的所有价值。该报告是唯一针对全球开放数据潜力的研究。


    Scgoe研究加拿大企业如何更好地获取和利用政府的高价值数据,从而释放强大经济潜力;回顾其他政府在收集、存储和转换开放数据方面的过程和实践;利用调查结果为政府提供关注方向和建议,即改善高价值数据的收集、存储和转换方式,从而促进公众有效存取和利用开放数据,推动作为信息经济一部分的经济增长。


    Ubaldi突出了开放政府数据计划制定的主要原则、概念和标准以及计划执行可能产生的问题。它强调开放政府数据的机会:开放政府数据和数据分析可以提供给政策制定者,使公共部门在这一议程上具有更全面了解。由于几乎没有分析和证明开放政府数据计划的影响和精确价值,因而该研究提出了一个针对开放政府数据的分析框架(适用于计划的事后和事前分析)和一组在整个OECD国家所收集的相关数据。据此,它得出结论:开放政府数据免费,可以产生更多的再利用者,进而可以刺激经济以及向政府提供税收收入;数据应该以机器可读和开放格式发布,而这需要在IT基础设施、技能和时间上进行大量投资。


    WorldBank研究开放数据的经济潜力,认为尽管发布的开放数据经济潜力的估算不断变化,而且估算方法存在困难,但潜力确实非常大。它回顾了那些十年前并不存在而后来使用开放数据的企业的最新数据。结果显示,这些企业都是受开放数据所驱动,并且现在价值至少10亿美元。它讨论了使用开放数据的五个典型的企业,并一一列举了具体例子,阐述了被证明最有可能导致普遍的业务采用和创新的数据类型。在此基础上,它提出了一些政策建议和行动,促使政府可以从它们数据中获得最大的经济增长。在政府运作的过程中,数据被收集旨在协助制定政策、资源分配或满足立法要求,数据收集本身被证明是合理的。


    此外,许多国际研究报告也对开放政府数据的价值进行评价。


    4、开放政府数据价值评价的意义


    4.1 有助于政府数据资源配置,提供决策支持


    作为开放政府数据中的重要环节,开放政府数据评价得到图书情报学的日益关注。当前,具有代表性的评价项目包括:联合国的“开放政府数据调查”、经济合作与发展组织的“开放政府数据指数”、开放知识基金会的“全球开放数据指数”、万维网的“开放数据晴雨表”、世界银行的“开放数据准备度”。尽管这些项目从不同评估视角,利用不同评估指标和方法来进行评估,但“实际上重点关注开放政府数据的评估,特别是经济以及公共和社会价值的实现”。为了更好地通过以评促发展,有必要在对政府数据的开放情况进行评估的基础上,加强对开放政府数据价值进行评估,以明确政府数据开发利用的成效。


    实际上,20世纪70年代以来,随着各国政府面临财政、管理等一系列危机,各国政府开始主张以私营部门的管理方式来提高政府绩效。各国对电子政务建设的投入越来越大,“电子政务投资黑洞”问题也得到政府及服务对象的关注。于是,各国政府积极引入企业管理理念和方法,而这一方法注重成本-效益分析,能够剖析开放政府数据投资中的“黑洞”现象,对“IT生产率悖论”进行更清晰的解释,为开放政府数据领域的投资项目提供了投资后评价方法。这种研究转换思维,将研究视角转向开放政府数据的产出上,促使政府调整开放政府数据上的经费投入,形成具有科学化的投资决策。


    4.2 有助于掌握开放政府数据创新效用,
          制定优化的价值实现策略


    当前存在的一个困难是,如何衡量开放数据对政府部门所产生的利益。像其他消费者一样,公共机构也是数据服务的购买者。事实上,在某些情况下,政府数据被数据服务提供商进行聚合或浓缩后,被政府买回。过去五年,政府使用开放数据的数量已经得到巨大突破:从加拿大英属哥伦比亚省开放数据门户上数据下载的三分之一都是来自本省的互联网地址;西班牙加泰罗尼亚地区对欧盟指导的INSPIRE项目所托管的地理空间数据开放元数据,使公共部门节约了成本和提高了效率,使其六个月就收回了四年的开发成本。


    可见,政府数据得到开放利用,但有待评价的是:大规模组合数据源和模式所产生的新知识;开放政府数据影响数字服务和信息服务的创新,还能从多大程度上影响更广泛的公共部门改革;数据驱动的创新能带来多大好处。例如,在一些案例中,数据驱动的创新所带来的好处可能会从一个产品或服务向另一个产品或服务来转移消费,或者从一个企业转移到另一个企业,因而这仅仅是价值再分配而不是价值创造。必须回答的问题是,数据驱动的创新产生多少“新”或“额外”的价值。一般来说,人们不清楚公共和私营部门产品和服务的全部范围,因而作为其中重要组成部分的政府数据也没有得到全面了解。通过对开放政府数据开展各项服务的效益进行调查和分析,有助于弄清这些服务能够产生多大效益。这些分析结果有助于国家和社会了解开放政府数据所带来的显著效益,从而制定优化的价值实现策略。


    5、开放政府数据价值评价的支撑理论


    5.1 成本效益分析


    成本-效益分析是以经济学的价值理论来评价某项投资建设的成本和效益的一种方法,它以寻求在投资决策上如何以最小的成本获得最大的收益为目的。当前,各国纷纷投资来挖掘大数据金矿,如美国国家气象服务每年向私营气象行业资助约15亿美元;2012年美国政府投资2亿美元推动大数据的核心技术研发;美国国防部计划每年投资2.5亿美元开展一系列大数据研究。在此背景下,人们关心的问题是,随着公共资金对开放政府数据投入的加大,开放政府数据为社会带来什么。因此,有必要从经济学的角度,通过衡量成本和收益来评价开放政府数据价值。开放政府数据创造的价值包括直接价值和间接价值。


    前者是指通过开放政府数据对生产或消费所产生的直接效果,主要通过如下方面体现:开发新型产品和服务、提高税收收入、产生就业机会等投资价值和市场价值。后者是指通过开放政府数据能间接产生的效益。例如,开放政府数据能够加强公民参与、促进政府之间的跨部门合作、推动公共服务智慧化供给等数据利用所产生的社会和经济影响。在具体评价操作中,也可以借鉴成本效益分析中消费者剩余方法、意愿支付方法、时间成本方法来开展价值评价。基于以上分析可知,利用成本-效益分析法来进行开放政府数据价值评价,是必要而且可行的。


    5.2利益相关者理论


    1963年,美国斯坦福研究所(StanfordResearchInstitute)首次使用了“利益相关者”这一术语,并认为对企业来说存在这样一些利益群体,如果没有他们的支持,企业就无法生存。1984年,弗里曼(R.EFreeman)出版了《战略性管理:一种利益相关者方法》一书,明确提出了利益相关者管理理论,并在1988年将利益相关者定义为:“那些因公司活动受益或受损,其权利也因公司活动而受到尊重或侵犯的人”。在开放政府数据中,利益相关者主要包括政府组织、非政府组织、个人。


    对于政府而言,开放政府数据在政府业务、决策制定和资源分配发明和提供了新的运作方式,从而改善政府运作效率。对于非政府组织而言,开放政府数据有助于社会组织通过对政府数据利用来改善服务交付、保护环境等,推动商业组织在追求商业性开发并提供创新的增值服务。对于个人而言,开放政府数据促使公众参与,如通过新开发的应用程序共同发展和合作生产的服务。众多利益相关者之间价值的分布将根据其特定的兴趣和对政府数据的期望而不同,它们从政府数据开放中所得到的好处也不同。因此,开放政府数据的每个行动应为各种来自组织内外的利益相关者提供价值,而且在开放政府数据价值评价中应当考虑这些多元利益要求进行评价。


    5.3 新公共服务理论


    罗伯特·登哈特夫妇提出的新公共服务理论对开放政府数据价值评价具有重要的理论指导意义。所谓的“新公共服务”,指的是关于公共行政在以公民为中心的治理系统中所扮演的角色的一套理念。它的主要核心思想为:服务于公民,而不是服务于顾客;追求公共利益;重视公民权胜过重视企业家精神;思考要具有战略性,行动要具有民主;承认责任并不简单;服务,而不是掌舵;重视人,而不只是重视生存率。该理论强调注重公民权,突出公共服务中的公民导向,并对公民服务需求进行积极回应。同样,开放政府数据作为一项重要的公共服务,政府在向公民提供这项服务时,应当强调服务质量,提供高价值的政府数据;政府在开放数据时,应当以公民为中心,依照公民的信息需求作为开放数据的依据,促使它们能够通过社会性开发和商业性开发,从而创造价值;科学确定开放政府数据价值评价的基本原则,确立以公众为本的价值评价观念,选择适当的评价方法。


    6、开放政府数据价值评价框架


    公共价值理论的基石存在于政府行动和它所能产生的各种公共价值之间的联系。为了明晰开放政府数据在多大程度上产生价值以及如何产生价值,有必要利用一个框架来确定开放政府数据活动的价值,这一框架包括开放政府数据价值类型以及开放政府数据价值生成器。开放政府数据价值可以通过囊括可能得到的六种主要影响类型来表述,即开放政府数据在如下六种类型中产生影响,从而产生不同的价值。


    其中,前四种类型是影响私人利益的个人或团体,其他两种类型是社会的民主结果。从这六种基本的价值影响类型,可以思考关于价值是怎么被创造的这一难题。价值是由价值生成机制所产生,确定这种机制有助于详细说明开放政府数据与一种或多种公共价值联系起来的方式,揭示了开放政府数据如何促进价值创造。根据这一框架,影响透明度,参与和合作的行为属于价值创造群体。例如,通过开放政府数据,公众获取可提高有关政府官员的行动或操作程序的有关政府官员的行动或操作程序,从而创造价值。作为一个整体,开放政府数据的价值生成器包含了各种不同类型。


    综上所述,将开放政府数据价值类型和开放政府数据价值生成机制联系起来,使开放政府数据项目是如何产生一种或多种公共价值变得清晰起来。例如,一个关于许可证在线申请的IT投资可能会增加效率和效果,并且对拥有这种许可证的利益相关者产生战略或经济上的公共价值。这一框架有助于明确:开放政府数据会达到使一个公民获得潜在的经济型、社会型、政治型或者是战略型的价值,或是和政府有关的内在价值。


    例如,当提供环境数据的时候,公民就可以得到两种价值。一方面,一个公民通过获取社区有毒化学品的数据,从而为自身家庭和社区获得社会福利,同时也会对提供数据的政府机构有更大的信任和拥护。另一方面,了解有毒化学品排放的公民会起诉相关责任的公司,因而对利益相关者的企业产生负面公共价值。另一种可能是,一些政府内部利益相关者可能通过开放这个数据而产生积极的政治和战略价值,因为它符合开放政府的要求,另外一些内部利益相关者会将此视为负面的政治影响。因此,确定任何开放政府数据的价值需要对众多利益相关者的看法进行分析,这就需要对正面和负面的影响进行定义和理解。


    7、结语


    政府数据资源蕴含价值,从公共价值角度探讨开放政府数据价值含义,基于多元视角来解读开放政府数据价值的层次,有助于对开放政府数据价值的评价。随着开放政府数据在各个国家的推进,这一领域也成为研究重点和热门话题。就我国而言,研究起步相对较晚,对开放政府数据价值及其评价关注较少,因而有必要关注国外开放政府数据价值及其评价的研究进展,从而充实相关研究领域的内容并将我国的研究结果与国外进行对照。开放政府数据价值及其评价是一项实践性很强的工程,因而有必要从经济学、管理学等角度来提供理论指导,从而明晰开放政府数据价值评价的理论基础。为了更好地确定开放政府数据活动的价值,有必要建立公共价值框架来对开放政府数据进行评价。



    未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


    未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

      如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

    640?wx_fmt=jpeg

    展开全文
  • 其中,如何应用可落地的技术,共享和保护数据,促进数据要素进一步流通,释放数据价值,受到业内普遍关注。 隐私计算,被业内誉为打破“数据隐私安全与共享矛盾的唯一技术解”。是大数据、人工智能及产业创新驱动不...

    数智化时代,数据已成为最核心、最具价值的生产要素。其中,如何应用可落地的技术,共享和保护数据,促进数据要素进一步流通,释放数据价值,受到业内普遍关注。

    隐私计算,被业内誉为打破“数据隐私安全与共享矛盾的唯一技术解”,是大数据、人工智能及产业创新驱动不可或缺的关键技术环节。随着数据与计算进一步融合,数字产业化加速推进。如何运用隐私计算实现数据“可用不可见”,形成业内亮眼、标杆性的应用案例,成为多领域客户的共性需求。

    这个答案,或许是翼方健数。公开信息显示,翼方健数致力于打造“数据和计算互联网(IoDC)”,以多方安全计算、区块链等技术为核心,从安全、可信等技术要求出发,正帮助行业各方实现数据可用不可见,保障信息安全,挖掘数据的价值。
    在这里插入图片描述
    着眼实际,务实有效的数据平台究竟是怎样的?行业有哪些亟需解决的难题?在11月10日的Data X大会暨翼方健数战略发布会上,翼方健数首席科学家张霖涛归纳行业的三个痛点:

    首先,优秀的数据平台必须要做到能汇聚不同源头数据,还要在数据不可见的情况下挖掘数据价值。平台需要解决的首要问题:如何保护数据隐私和安全?

    其次,在IoDC场景下,资源分布在广泛的网络中,如何利用技术支持应用的数据需求?

    最后,数据资产分配产生的价值如何有效分配,如何确保贡献者的长期权益?
    在这里插入图片描述
    从这些难题出发,张霖涛推导出优秀的数据平台应该具备的三大核心能力:

    数据全生命周期管理:搭建从数据清洗、数据管理、数据标注、数据价值抽取,数据价值分配、数据交易等等的一系列工具和应用。数据真正能用、可用和好用。

    坚实的隐私安全计算技术体系:围绕XDP平台的隐私安全计算能力,从单体平台到联邦平台再到IoDC,从沙箱到TEE到MPC和联邦学习,在隐私安全计算赛道建立最有竞争力的全栈解决方案。

    AI驱动且可差异化应用:AI为核心,大数据驱动。在垂直行业利用数据和AI能力为行业客户获取最大化价值。

    瞄准客户成功的目标,围绕“用隐私安全计算技术解锁数据价值“,张霖涛详细介绍翼方健数提出的路径——全栈技术解决方案,才能为数据平台的构建带来新启发,并为迈向数据和计算互联网打下坚实基础。

    隐私安全计算平台是核心底座

    平台为用,架构先行。为打造适合IoDC时代的全栈技术平台,翼方健数先推导出的是核心的XDP隐私安全计算平台架构。
    在这里插入图片描述
    XDP平台架构主要由四部分组成:

    1. 底层的XDP文件系统(XFS,XDP File System)用以存储数据,保证数据安全。
    2. 中间层是执行引擎XEE。
    3. 临近应用的一层支持各种计算环境,包括安全沙箱、可信执行环境、安全计算引擎和联邦学框架。
    4. 最顶层用来支持客户的需求,部署各种应用。
      张霖涛指出,底层部件XFS最为重要。如同物流仓,它决定了”数据究竟存在何处,结构是否清晰,能否支持快速调用“。

    XFS专为IoDC打造,是一个分布式文件系统。XFS主要提供四大能力:首先是提供高规格安全保护,基于密钥管理系统,对数据实现强隔离、多层次的加密、细颗粒度的访问控制及可编程的生命周期管理,保证数据遵循“最小使用原则”;

    其次,XFS具备全方位的计算支持,可以满足大数据和机器学习的多种需求;

    此外,XFS具有卓越性能和跨平台能力,可兼容NVMe,RDMA等高性能存储技术,全面管理IoDC数据存储资源;

    最后是有经济高效的使用方式,XFS支持如块存储、对象存储等,可实现数据平滑迁移。

    有这样可靠的文件系统,客户可以放心汇聚、存储数据。上层的XDP DaaS Engine(XDaaS) 的应用才可进一步对数据进行发现与整合。

    XDaaS提供可扩展的主数据,实现多数据源间的有效融合。XDaaS同时提供高效的数据探查能力,最后实现cell级别的来源追踪。在使用过程中,XDaaS还能对敏感数据加以保护。

    数据到位后,按需调动资源,执行引擎XEE(XEE,XDP Execution Engine)开始进行运算。
    XEE可使用多种底层计算基础设施,支持云和私有化部署,对硬件环境要求不高,提供多种计算模式,包括批量处理流式计算等。此外,XEE支持基于浏览器的多种交互模式。因此,XEE可做到统筹管理IoDC中的全网络计算资源。
    在这里插入图片描述

    如何保障计算的安全性和可扩展性?PCT层运用了多种技术、环境与框架。

    不同于传统沙箱计算环境,翼数安全沙箱(XDP Secure Sandbox)满足单体平台上“软件可信,用户不可信”的安全假设。系统管理员在安全信任体系之外,能充分防范平台运维的违规操作。它为单体平台提供“零信任”的本地计算环境。

    在有可信硬件情况下,翼方健数通过可信执行环境XTEE,为客户提供安全、高效、通用的端到端可信执行环境,并运用硬件完成对软件的验证。简而言之,XTEE可以加快远程证明、提供TEE运行时加密文件系统的支持。

    对于上层的联邦学习技术能力,一方面,翼方健数还打造了一套联邦学习框架XFL,其从底层实际情况出发。具有丰富的自定义接口,兼具高安全性和高扩展性的特征。XFL支持海量插件,覆盖主流算法。数据不出域,也能在支持主流环境下进行安全联合建模。
    在这里插入图片描述
    除前期产品技术能力实现之外,翼方健数仍实时响应客户诉求,持续迭代产品功能。
    由于在客户需求调研中发现,很多应用场景同步对机器学习和通用计算都有需求。为此,翼方健数开发密文计算框架XSC。
    XSC框架具有高完备性、灵活部署和集成开放的跨平台特性。XSC支持高效完备的算法库,可以部署各种硬件,支持集成其他的开源隐私计算框架。张霖涛还透露,联邦学习框架XFL和密文计算框架XSC在未来都会开源。

    “保姆级”的数据全生命周期管理

    在这里插入图片描述
    除让数据实现安全、可信计算外,隐私计算平台汇集数据后,在实际应用场景中,客户又提出了新的疑问:如何解决数据管理,数据价值分配和数据确权的问题?

    翼方健数认为,区块链技术在这一板块优势明显,但同样需要和隐私安全计算技术打配合。

    翼方健数通过结合隐私安全计算与区块链技术,开发Xledger为XDP联盟和IoDC提供不可篡改的数据存证与智能合约,对数据实现全生命周期管理,智能合约保障价值分配,保证数据所有者的权益。

    如果客户想要更高效率地获取高质量数据,怎么办?

    翼方健数自主研发数据标注工具GoldFinger,不仅支持高效率的用户标注,还可以更好服务AI应用需求。GoldFinger可以保证数据在使用时严格隔离,预标注能力还可扩展为众包模式,兼顾效率与安全。

    客户在清洗数据时标准不明确,效果差,出现大量无效工作,何解?

    那就响应需求,翼方健数开发数据治理工具DataWand。

    传统的ETL手段费时费力且没有统一标准,清洗规则效果差,重复利用率低,也有数据泄露风险。

    DataWand都可以解决以上问题,不仅可以对数据大规模标注,在保证数据安全情况下,算法还能持续迭代,为后续的数据清洗提供服务。据张霖涛介绍,DataWand目前已经在城市级别数据中取得很好的应用效果。这也为后续客户在选择时提供了更多参考依据。

    数据储存在哪里?你们是技术供应商,交付后能否保证客户有完全的控制权限?

    张霖涛表示,翼方健数本身并不拥有数据,数据的控制权需要由数据拥有方来做授权。换句话说,翼方健数是“零数据的大数据公司”。

    赋能各行业,AI驱动的差异化应用
    在这里插入图片描述
    隐私安全技术可以解决安全与效率的问题。

    然而在客户决策前,是否已有成功先例,仍是重要的拍板依据。

    翼方健数早已在医疗、生信、政务等垂直领域完成多项AI业务挑战,储备诸多应用案例。

    仅以医疗行业客户为例,翼方健数建立业界领先的,基于深度学习的诊疗合理性内核。

    诊疗模型基于采集的数据,通过与库内特征比对,对疾病作出预测和预警。如做智能多点触发疾控解决方案,以此来预测传染病的发病情况和未来走势。

    基于知识图谱,翼方健数辅助构建医学数据库,帮助医生/科研人员系统地从各种资料中抽取出有效信息。

    诊疗合理性内核已经应用到医院端的CDSS(临床决策支持系统)和医疗质控中,进一步帮助医生提质增效降风险。相关数据在授权后,还可应用于科研院所和政策研究机构。

    全栈化解决方案,是隐私计算技术落地难的最优解法

    张霖涛认为,若想通过隐私计算去最大化数据价值,单一技术显然无法提供“完美”的解决方案。

    如果要为各行各业创造真正的数据价值,使数据和计算资源充分流动。隐私安全计算企业或许还要考虑得更为现实且深远,全栈化解决方案或许才是隐私计算技术落地难题的最优解法。

    但是,对于技术供应商而言,最优解法注定会更为艰辛。抵达星辰大海之前,一路绝非坦途。

    构建IoDC(数据和计算互联网)是翼方健数的愿景与目标。若要达成这一目标,一方面,翼方健数需要不断迭代各类技术方案,为客户多想一步,适应应用场景的变化;另一方面,翼方健数还需促成行业共识,使不同的平台间数据互通,为彼此产生价值。不过,这条路径一旦走通之后,必定会撬动指数级的数字化市场份额。

    展开全文
  • 这种对数据价值的高度敏感和重视,以及强大的挖掘能力,使得亚马逊早已远远超出了它的传统运营方式。 亚马逊CTO Werner Vogels在CeBIT上关于大数据的演讲,向与会者描述了亚马逊在大数据时代的商业蓝图。 长期以来,...

    640?wx_fmt=gif

    导读:本文是近年来不同行业、不同领域的大数据公司的一些经典案例总结。尽管有些已经是几年前的案例,但其中的深层逻辑对于未来仍有启发。


    本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率;三是以数据驱动的产品,在产品设计阶段,强调个性化;在产品运营阶段,则强调迭代式创新。


    640?wx_fmt=jpeg



    01 上篇:天然大数据公司的各种套餐


    从谷歌、亚马逊、Facebook、LinkedIn,到阿里、百度、腾讯,都因其拥有大量的用户注册和运营信息,成为天然的大数据公司。而像IBM、Oracle、EMC、惠普这类大型技术公司纷纷投身大数据,通过整合大数据的信息和应用,给其他公司提供“硬件软件 数据”的整体解决方案。我们关注的重点是大数据的价值,第一类公司首当其冲。


    下面就是这些天然大数据公司的挖掘价值的典型案例。


    1. 亚马逊的“信息公司”


    如果全球哪家公司从大数据发掘出了最大价值,截至目前,答案可能非亚马逊莫属。亚马逊也要处理海量数据,这些交易数据的直接价值更大。


    作为一家“信息公司”,亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来:页面停留时间、用户是否查看评论、每个搜索的关键词、浏览的商品等等。这种对数据价值的高度敏感和重视,以及强大的挖掘能力,使得亚马逊早已远远超出了它的传统运营方式。


    亚马逊CTO Werner Vogels在CeBIT上关于大数据的演讲,向与会者描述了亚马逊在大数据时代的商业蓝图。长期以来,亚马逊一直通过大数据分析,尝试定位客户和和获取客户反馈。


    “在此过程中,你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持,”Vogels说,“一旦进入大数据的世界,企业的手中将握有无限可能。”从支撑新兴技术企业的基础设施到消费内容的移动设备,亚马逊的触角已触及到更为广阔的领域。


    亚马逊推荐:亚马逊的各个业务环节都离不开“数据驱动”的身影。在亚马逊上买过东西的朋友可能对它的推荐功能都很熟悉,“买过X商品的人,也同时买过Y商品”的推荐功能看上去很简单,却非常有效,同时这些精准推荐结果的得出过程也非常复杂。


    亚马逊预测:用户需求预测是通过历史数据来预测用户未来的需求。对于书、手机、家电这些东西——亚马逊内部叫硬需求的产品,你可以认为是“标品”——预测是比较准的,甚至可以预测到相关产品属性的需求。但是对于服装这样软需求产品,亚马逊干了十多年都没有办法预测得很好,因为这类东西受到的干扰因素太多了,比如:用户的对颜色款式的喜好,穿上去合不合身,爱人朋友喜不喜欢…… 这类东西太易变,买得人多反而会卖不好,所以需要更为复杂的预测模型。


    亚马逊测试:你会认为亚马逊网站上的某段页面文字只是碰巧出现的吗?其实,亚马逊会在网站上持续不断地测试新的设计方案,从而找出转化率最高的方案。整个网站的布局、字体大小、颜色、按钮以及其他所有的设计,其实都是在多次审慎测试后的最优结果。


    亚马逊记录:亚马逊的移动应用让用户有一个流畅的无处不在的体验的同时,也通过收集手机上的数据深入地了解了每个用户的喜好信息;更值得一提的是Kindle Fire,内嵌的Silk浏览器可以将用户的行为数据一一记录下来。


    以数据为导向的方法并不仅限于以上领域,亚马逊的企业文化就是冷冰冰的数据导向型文化。对于亚马逊来说,大数据意味着大销售量。数据显示出什么是有效的、什么是无效的,新的商业投资项目必须要有数据的支撑。对数据的长期专注让亚马逊能够以更低的售价提供更好的服务。


    640?wx_fmt=jpeg


    2. 谷歌的意图


    如果说有一家科技公司准确定义了“大数据”概念的话,那一定是谷歌。根据搜索研究公司comScore的数据,仅2012年3月一个月的时间,谷歌处理的搜索词条数量就高达122亿条。谷歌的体量和规模,使它拥有比其他大多数企业更多的应用大数据的途径。


    谷歌搜索引擎本身的设计,就旨在让它能够无缝链接成千上万的服务器。如果出现更多的处理或存储需要,抑或某台服务器崩溃,谷歌的工程师们只要再添加更多的服务器就能轻松搞定。将所有这些数据集合在一起所带来的结果是:企业不仅从最好的技术中获益,同样还可以从最好的信息中获益。下面选择谷歌公司的其中三个亮点。


    谷歌意图:谷歌不仅存储了搜索结果中出现的网络连接,还会储存用户搜索关键词的行为,它能够精准地记录下人们进行搜索行为的时间、内容和方式,坐拥人们在谷歌网站进行搜索及经过其网络时所产生的大量机器数据。这些数据能够让谷歌优化广告排序,并将搜索流量转化为盈利模式。谷歌不仅能追踪人们的搜索行为,而且还能够预测出搜索者下一步将要做什么。用户所输入的每一个搜索请求,都会让谷歌知道他在寻找什么,所有人类行为都会在互联网上留下痕迹路径,谷歌占领了一个绝佳的点位来捕捉和分析该路径。换言之,谷歌能在你意识到自己要找什么之前预测出你的意图。这种抓取、存储并对海量人机数据进行分析,然后据此进行预测的能力,就是数据驱动的产品。


    谷歌分析:谷歌在搜索之外还有更多获取数据的途径。企业安装“谷歌分析”之类的产品来追踪访问者在其站点的足迹,而谷歌也可获得这些数据。网站还使用“谷歌广告联盟”,将来自谷歌广告客户网的广告展示在其站点,因此,谷歌不仅可以洞察自己网站上广告的展示效果,同样还可以对其他广告发布站点的展示效果一览无余。


    谷歌趋势:既然搜索本身是网民的“意图数据库”,当然可以根据某一专题搜索量的涨跌,预测下一步的走势。谷歌趋势可以预测旅游、地产、汽车的销售。此类预测最著名的就是谷歌流感趋势,跟踪全球范围的流感等病疫传播,依据网民搜索,分析全球范围内流感等病疫的传播状况。


    3. eBay的分析平台


    早在2006年,eBay就成立了大数据分析平台。为了准确分析用户的购物行为,eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析。eBay分析平台高级总监Oliver Ratzesberger说:“在这个平台上,可以将结构化数据和非结构化数据结合在一起,通过分析促进eBay的业务创新和利润增长。”


    eBay行为分析:在早期,eBay网页上的每一个功能的更改,通常由对该功能非常了解的产品经理决定,判断的依据主要是产品经理的个人经验。而通过对用户行为数据的分析,网页上任何功能的修改都交由用户去决定。“每当有一个不错的创意或者点子,我们都会在网站上选定一定范围的用户进行测试。通过对这些用户的行为分析,来看这个创意是否带来了预期的效果。”


    eBay广告分析:更显著的变化反映在广告费上。eBay对互联网广告的投入一直很大,通过购买一些网页搜索的关键字,将潜在客户引入eBay网站。


    4. 塔吉特的“数据关联挖掘”


    利用先进的统计方法,商家可以通过用户的购买历史记录分析来建立模型,预测未来的购买行为,进而设计促销活动和个性服务避免用户流失到其他竞争对手那边。


    美国第三大零售商塔吉特,通过分析所有女性客户购买记录,可以“猜出”哪些是孕妇。其发现女性客户会在怀孕四个月左右,大量购买无香味乳液。由此挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。推算出预产期后,就能抢先一步,将孕妇装、婴儿床等折扣券寄给客户。


    塔吉特还创建了一套购买女性行为在怀孕期间产生变化的模型,不仅如此,如果用户从它们的店铺中购买了婴儿用品,它们在接下来的几年中会根据婴儿的生长周期定期给这些顾客推送相关产品,使这些客户形成长期的忠诚度。


    640?wx_fmt=jpeg


    5. 中国移动的数据化运营


    通过大数据分析,中国移动能够对企业运营的全业务进行针对性的监控、预警、跟踪。大数据系统可以在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。


    客户流失预警:一个客户使用最新款的诺基亚手机,每月准时缴费、平均一年致电客服3次,使用WEP和彩信业务。如果按照传统的数据分析,可能这是一位客户满意度非常高、流失概率非常低的客户。事实上,当搜集了包括微博、社交网络等新型来源的客户数据之后,这位客户的真实情况可能是这样的:客户在国外购买的这款手机,手机中的部分功能在国内无法使用,在某个固定地点手机经常断线,彩信无法使用——他的使用体验极差,正在面临流失风险。这就是中国移动一个大数据分析的应用场景。通过全面获取业务信息,可能颠覆常规分析思路下做出的结论,打破传统数据源的边界,注重社交媒体等新型数据来源,通过各种渠道获取尽可能多的客户反馈信息,并从这些数据中挖掘更多的价值。


    数据增值应用:对运营商来说,数据分析在政府服务市场上前景巨大。运营商也可以在交通、应对突发灾害、维稳等工作中使大数据技术发挥更大的作用。运营商处在一个数据交换中心的地位,在掌握用户行为方面具有先天的优势。作为信息技术的又一次变革,大数据的出现正在给技术进步和社会发展带来全新的方向,而谁掌握了这一方向,谁就可能成功。对于运营商来说,在数据处理分析上,需要转型的不仅是技巧和法律问题,更需要转变思维方式,以商业化角度思考大数据营销。


    6. Twitter中的兴趣和情绪


    Twitter兴趣聚类:通过过滤用户归属地、发推位置和相关关键词,Twitter建立了一系列定制化的客户数据流。比如,通过过滤电影片名、位置和情绪标签,你可以知道洛杉矶、纽约和伦敦等城市最受欢迎的电影是哪些。而根据用户发布的个人行为描述,你甚至能搜索到那些在加拿大滑雪的日本游客。从这个视角看,Twitter的兴趣图谱的效率优于Facebook的社交图谱。Twitter的用户数据所能产生的潜在价值同样令人惊叹。在社交媒体网站正在收集越来越多的数据的形势下,它们或许能找到更好的方式来利用这些数据盈利,并使其取代广告成为自身提高收入的主要方式。这些社交网站真正的价值可能在于数据本身。相信在不久的将来,如果寻找到既能充分利用用户数据,又可合理规避对用户隐私的威胁,社交数据所蕴藏的巨大能量将会彻底被开启。


    Twitter情绪分析:Twitter自己并不经营每一款数据产品,但它把数据授权给了像DataSift这样的数据服务公司,很多公司利用Twitter社交数据,做出了各种让人吃惊的应用,从社交监测到医疗应用,甚至可以去追踪流感疫情爆发,社交媒体监测平台DataSift还创造了一款金融数据产品。华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。一些媒体公司会把观众收视率数据打包到产品里,再转卖给频道制作人和内容创造者。


    精确的数据一旦与社交媒体数据相结合,对未来的预测会非常准。


    7. 特易购的精准定向


    聪明的商家通过用户的购买历史记录分析来建立模型,为他们量身预测未来的购物清单,进而设计促销活动和个性服务,让他们源源不断地为之买单。


    特易购是全球利润第二大的零售商,这家英国超级市场巨人从用户行为分析中获得了巨大的利益。从其会员卡的用户购买记录中,特易购可以了解一个用户是什么“类别”的客人,如速食者、单身、有上学孩子的家庭等等。


    这样的分类可以为提供很大的市场回报,比如,通过邮件或信件寄给用户的促销可以变得十分个性化,店内的促销也可以根据周围人群的喜好、消费的时段来更加有针对性,从而提高货品的流通。这样的做法为特易购获得了丰厚的回报,仅在市场宣传一项,就能帮助特易购每年节省3.5亿英镑的费用。


    Tesco的优惠券:特易购每季会为顾客量身定做6张优惠券。其中4张是客户经常购买的货品,而另外2张则是根据该客户以往的消费行为数据分析,极有可能在未来会购买的产品。仅在1999年,特易购就送出了14.5万份面向不同的细分客户群的购物指南杂志和优惠券组合。更妙的是,这样的低价无损公司整体的盈利水平。通过追踪这些短期优惠券的回笼率,了解到客户在所有门店的消费情况,特易购还可以精确地计算出投资回报。发放优惠券吸引顾客其实已经是很老套的做法了,而且许多的促销活动实际只是来掠夺公司未来的销售额。然而,依赖于扎实的数据分析来定向发放优惠券的特易购,却可以维持每年超过1亿英镑的销售额增长。


    特易购同样有会员数据库,通过已有的数据,就能找到那些对价格敏感的客户,然后在公司可以接受的最低成本水平上,为这类顾客倾向购买的商品确定一个最低价。这样的好处一是吸引了这部分顾客,二是不必在其他商品上浪费钱降价促销。


    特易购的精准运营:这家连锁超市在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析,进行更全面的监控并进行主动的维修以降低整体能耗。


    640?wx_fmt=jpeg


    8. Facebook的好友推荐


    Facebook是社交网络巨擎,但是在挖掘大数据价值方面,好像办法不多,值得一提的就是好友推荐。


    Facebook使用大数据来追踪用户在其网络的行为,通过识别你在它的网络中的好友,从而给出新的好友推荐建议,用户拥有越多的好友,他们与Facebook之间的黏度就越高。更多的好友意味着用户会分享更多照片、发布更多状态更新、玩更多的游戏。


    9. LinkedIn的猎头价值


    LinkedIn网站使用大数据在求职者和招聘职位之间建立关联。有了LinkedIn,猎头们再也不用向潜在的受聘者打陌生电话来碰运气,而可以通过简单的搜索找出潜在受聘者并联系他们。


    与此相似,求职者也可以通过联系网站上其他人,自然而然地将自己推销给潜在的雇主。有两个例子能够生动呈现LinkedIn的数据价值:几年前,LinkedIn忽然发现近期雷曼兄弟的来访者多了起来,当时并没引起重视,过了不久,雷曼兄弟宣布倒闭;而在谷歌宣布退出中国的前一个月,在LinkedIn发现了一些平时很少见的谷歌产品经理在线,这也是相同的道理。


    10. 沃尔玛的数据基因


    早在1969年沃尔玛就开始使用计算机来跟踪存货,1974年就将其分销中心与各家商场运用计算机进行库存控制。1983年,沃尔玛所有门店都开始采用条形码扫描系统。


    1987年,沃尔玛完成了公司内部的卫星系统的安装,该系统使得总部,分销中心和各个商场之间可以实现实时,双向的数据和声音传输。采用这些在当时还是小众和超前的信息技术来搜集运营数据为沃尔玛最近20年的崛起打下了坚实的地基,从而发现了“啤酒与尿布”关联。


    如今,沃尔玛拥有着全世界最大的数据仓库,在数据仓库中存储着沃尔玛数千家连锁店在65周内每一笔销售的详细记录,这使得业务人员可以通过分析购买行为更加了解他们的客户。


    通过这些数据,业务员可以分析顾客的购买行为,从而供应最佳的销售服务。沃尔玛一直致力于改善自身的数据收集技术,从条形码扫描,到安装卫星系统实现双向数据传输,整个公司都充满了数据基因。


    2012年4月,沃尔玛又收购了一家研究网络社交基因的公司Kosmix,在数据基因的基础上,又增加了社交基因。


    11. 阿里小贷和聚石塔


    虽然阿里系的余额宝如日中天,但其实阿里小贷才真正体现出了大数据的价值。早在2010年阿里就已经建立了“淘宝小贷”,通过对贷款客户下游订单、上游供应商、经营信用等全方位的评估,就可以在没有见面情况下,给客户放款,这当然是对阿里平台上大数据的挖掘。


    数据来源于“聚石塔”——一个大型的数据分享平台,它通过共享阿里巴巴旗下各个子公司的数据资源来创造商业价值。这款产品就是大数据团队把淘宝交易流程各个环节的数据整合互联,然后基于商业理解对信息进行分类储存和分析加工,并与决策行为连接起来所产生的效果。


    12. 西尔斯的数据大集成


    在过去,美国零售巨头西尔斯控股公司,需要八周时间才能制定出个性化的销售方案,但往往做出来的时候,它已不再是最佳方案。


    痛定思痛,决定整合其专售的三个品牌——Sears、Craftsman、Lands'End的客户、产品以及销售数据,使用群集收集来自不同品牌的数据,并在群集上直接分析数据,而不是像以前那样先存入数据仓库,避免了浪费时间——先把来自各处的数据合并之后再做分析。


    这种调整让公司的推销方案更快、更精准,可以从海量信息中挖掘价值,但是价值巨大,困难也巨大:这些数据需要超大规模分析,且分散在不同品牌的数据库与数据仓库中,不仅数量庞大而且支离破碎。


    西尔斯的困境,在传统企业中非常普遍,这些企业家一直想不通,既然互联网零售商亚马逊可以推荐阅读书目、推荐电影、推荐可供购买的产品,为什么他们所在的企业却做不到类似的事情。


    西尔斯公司首席技术官菲里·谢利(Phil Shelley)说:如果要制定一系列复杂推荐方案质量更高,需要更及时、更细致、更个性化的数据,传统企业的IT架构根本不能完成这些任务,需要痛下决心,才能完成转型。


    640?wx_fmt=jpeg



    02 中篇:轻公司数据创业狂欢


    在“数据盛宴”中,是否只有大公司的狂欢?并非如此,从事大数据产业的轻公司将无处不在。新兴的创业公司通过出售数据和服务更有针对性地提供单个解决方案,把大数据商业化、商品化,才是更加值得我们关注的模式。这将带来继门户网站、搜索引擎、社交媒体之后的新一波创业浪潮和产业革命,并会对传统的咨询公司产生强烈冲击。


    13. PredPol的犯罪预测


    PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。


    14. Tipp24 AG的赌徒行为预测


    Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN,“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势”。


    15. Inrix的堵车预言


    交通的参与者多种多样,是大数据最能发挥价值的领域。交通流量数据公司Inrix依靠分析历史和实时路况数据,能给出及时的路况报告,以帮助司机避开正在堵车的路段,并且帮他们提前规划好行程。汽车制造商、移动应用开发者、运输企业以及各类互联网企业都需要Inrix的路况报告。奥迪、福特、日产、微软等巨头都是Inrix的客户。


    16. 潘吉瓦的时尚预测


    消费者追寻意见领袖的生活方式。潘吉瓦公司就是用数据分析来预测流行趋势,以此为基础甚至撬动全球贸易。比如,它们通过41次追踪《暮光之城》的徽章、袜子的运输情况,分析在这部电影中主角的服饰对流行趋势有多大影响率,并将分析结果告知用户,建议他们对自己的行动做出恰当的调整。


    17. 潘多拉的音乐推荐


    美国在线音乐网站潘多拉特别聘请一些音乐专家,让他们每个人平均花上20分钟去分析一首歌曲,并赋予每首歌400种不同的属性。如果你表示喜欢一首歌,程序会自动寻找跟这首歌“基因”相同的歌曲,猜测你也会喜欢并采用推荐引擎技术推荐给你。借助这种人海战术,潘多拉网站已经分析了74万首歌曲。


    640?wx_fmt=jpeg


    18. Futrix Health的医疗方案


    Futrix Health是一家专注于用通过数据为患者制定医疗解决方案的公司,从安装在智能手机上的个人健康应用,到诊所、医院里医生使用的电子健康记录仪,甚至是革命性的数字化基因组数据,均连接到后端数据仓库上。从而为患者制定最佳的医院选择、医药选择。


    该如何将采集到医疗保健机构的大量操作信息,分析患者情况或治疗效果,实施任何高效率的措施,使之更具有意义——大数据时代提供的机会,不再是简单地收集这些数据,而是如何运用数据来更好地认知这个世界。


    19. Retention Science的用户粘性


    在零售领域,创业公司Retention Science发布了一个为电子商务企业提供增强用户粘性的数据分析及市场策略设计的平台,它的用户建模引擎具备自学习功能,通过使用算法和统计模型来设计优化用户粘性的策略。


    平台的用户数据分析都是实时进行,以确保用户行为预测总是符合实际用户行为更新;同时,动态的根据这些行为预测来设计一些促销策略。RS目前已获得Baroda Ventures, Mohr Davidow Ventures, Double M Partners及一些著名天使投资人130万美金的投资。


    20. 众瀛的婚嫁后推荐


    江苏众瀛联合数据科技有限公司构建了这样一个大数据平台——将准备结婚的新人作为目标消费者,并把与结婚购物相关的商家加入其中。


    一对新人到薇薇新娘婚纱影楼拍了婚纱照,在实名登记了自己的信息后会被上传到大数据平台上。大数据平台能根据新人在婚纱影楼的消费情况和偏好风格,大致分析判断出新人后续消费需求,即时发送奖励和促销短信。


    比如邀请他们到红星美凯龙购买家具、到红豆家纺选购床上用品、到国美电器选购家用电器、到希尔顿酒店摆酒席……如果新人在红星美凯龙购买了中式家具,说明他们偏好中国传统文化,就推荐他们购买红豆家纺的中式家居用品。


    21. Takadu的数字驯水


    水,向来是个不好管理的东西:自来水公司发现某个水压计出现问题,可能需要花上很长的时间排查共用一个水压计的若干水管。等找到的时侯,大量的水已经被浪费了。以色列一家名为Takadu的水系统预警服务公司解决了这个问题。


    Takadu把埋在地下的自来水管道水压计、用水量和天气等检测数据搜集起来,通过亚马逊的云服务传回Takadu公司的电脑进行算法分析,如果发现城市某处地下自来水管道出现爆水管、渗水以及水压不足等异常状况,就会用大约10分钟完成分析生成一份报告,发回给这片自来水管道的维修部门。


    报告中,除了提供异常状况类型以及水管的损坏状况——每秒漏出多少立方米的水,还能相对精确地标出问题水管具体在哪里。检测每千米“水路”,Takadu的月收费是1万美元。


    640?wx_fmt=jpeg


    22. 百合网的婚恋匹配


    电商行业的现金收入源自数据,而婚恋网站的商业模型更是根植于对数据的研究。比如,作为一家婚恋网站,百合网不仅需要经常做一些研究报告,分析注册用户的年龄、地域、学历、经济收入等数据,即便是每名注册用户小小的头像照片,这背后也大有挖掘的价值。


    百合网研究规划部李琦曾经对百合网上海量注册用户的头像信息进行分析,发现那些受欢迎头像照片不仅与照片主人的长相有关,同时照片上人物的表情、脸部比例、清晰度等因素也在很大程度上决定了照片主人受欢迎的程度。


    例如,对于女性会员,微笑的表情、直视前方的眼神和淡淡的妆容能增加自己受欢迎的概率,而那些脸部比例占照片1/2、穿着正式、眼神直视没有多余pose的男性则更可能成为婚恋网站上的宠儿。


    23. Prismatic的新闻外衣


    Prismatic是一款个性化新闻应用,只有4名创始员工,凭借互联网数据爬虫和社交网络开发平台的数据,依托亚马逊的云计算平台,实现了大数据的精益创业。


    Prismatic不提供统一的设计精良的新闻订阅或推荐界面,而是根据分析用户的Facebook 或Twitter资料,为用户做一对一的数据分析和推荐。


    从盈利模式来看,Prismatic不是依靠广告费生存下来,也不是传统的新闻媒介,而是一个披着新闻应用外衣的电子商务公司。名义上为了给用户个性化推荐新闻而得到用户的个人信息进行数据分析,针对性的推出推荐商品,从而从电子商务中盈利。


    24. Opower的对比激励


    人类都有和同类对比的天性,例如,一家政府机构收集不同地点从事同类工作的多组员工的数据,仅仅将这些信息公诸于众就促使落后员工提高了绩效。


    在能源行业,Opower使用数据对比来提高消费用电的能效,并取得了显著的成功。作为一家SaaS的创新公司,Opower与多家电力公司合作,分析美国家庭用电费用并将之与周围的邻居用电情况进行对比,被服务的家庭每个月都会受到一份对比的报告,显示自家用电在整个区域或全美类似家庭所处水平,以鼓励节约用电。


    Opower的服务以覆盖了美国几百万户居民家庭,预计将为美国消费用电每年节省5亿美元。Opower报告信封,看上去像账单,它们使用行为技术轻轻地说服公用事业客户降低消耗。


    Opower已经推出了它的大数据平台 Opower4 ,通过分析各种智能电表和用电行为,电力公司等公用事业单位成为Opower的盈利来源。而对一般用户而言,Opower完全是免费的。


    25. Chango和Uniqlick的点击消费


    使用新的数据技术,诸如美国的Chango公司和中国的Uniqlick公司正在数字广告行业中探索新的商业模式——实时竞拍数字广告。


    通过了解互联网用户在网络的搜索、浏览等行为,这些公司可以为广告主提供最有可能对其商品感兴趣的用户群,从而进行精准营销;更长期的趋势是,将广告投放给最有可能购买的用户群。


    这样的做法对于广告主来说,可以获得更高的转换率,而对于发布广告的网站来说,也提高了广告位的价值。


    640?wx_fmt=jpeg


    26. 众趣的行为辩析


    众趣是国内第一家社交媒体数据管理平台,目前国内主要的社交开放平台在用户数据的开放性方面仍比较保守,身为第三方数据分析公司,能够获得的用户数据还十分有限,要使用这些用户数据需获得用户许可。


    众趣通过运营统计学等相关数据分析原理对用户数据进行过滤,最终完成的是对一个用户的行为、动作等个体特征的描述。这些描述可以帮助品牌营销者了解消费者的消费习惯及需求;也可以帮助企业的领导增强对自己员工的了解。除了对个体以及群体行为特征的描述外,这些数据分析结果还可用于对用户群体的行为预测,从而为营销者提供一些前瞻性的市场分析。


    众趣数据分析的结果只能精准到群组而无法达到个人。此类的用户数据研究除在市场营销领域具有一定的参考价之外,目前大多还主要用于配合一些小调研。此外,这些数据还可以实现对用户甚至企业机构的信用评级,在金融领域也有一定程度的使用。


    27. 拖拉网的明天猜想


    导购电商的拖拉网制作了“明天穿什么”这一应用。在这个应用当中,众多时装圈权威人士输送时装搭配与风格单品,由用户任意打分,根据用户的打分偏好,拖拉网便能猜到明天她们想穿什么,然后为她在数十万件网购时装中推荐单品,并且实现直通购买下单。在获取客户数据后,后台分析也是各显神通。


    拖拉网加入了更多变量来考核自己的推荐模式。比如有消费者明天要参加一个聚会,不知道要穿什么风格,也没有看天气预报,希望导购网站能帮她把这些场景和自己的信息组合起来,给出一整套的解决方案。


    于是日期、地域、场合、风格,这些都成为穿衣搭配解决方案的变量,经过不断的组合呈现给用户,据拖拉网数据,用户在看到一个比较优质的搭配,并有场景性引导的时候,点击到最后页面完成购买的转化率会比单品推荐高40%。


    28. SeeChange的基因健康


    现在人们有了把人类基因档案序列化的能力,这允许医生和科学家去预测病人对于某些疾病的易感染性和其他不利的条件,可以减少治疗过程的时间和花费。


    位于旧金山的SeeChange公司创建了一套新的健康保险模式。该公司通过分析客户的个人健康记录、医疗报销记录、以及药店的数据,来判断该客户对于慢性病的易感性,并判断该客户是否有可能从一些定制的康复套餐中获利。


    SeeChange同时设计健康计划,并设立奖励机制鼓励客户主动完成健康行动,全过程都通过其数据分析引擎来监控。


    29. Given Imaging的图像诊断


    以色列的Given Imaging公司发明了一种胶囊,内置摄像头,患者服用后胶囊能以大约每秒14张照片的频率拍摄消化道内的情况,并同时传回外置的图像接收器,患者病征通过配套的软件被录入数据库,在4至6小时内胶囊相机将通过人体排泄离开体外。


    一般来说,医生都是在靠自己的个人经验进行病征判断,难免会对一些疑似阴影拿捏不准甚至延误病人治疗。现在通过Given Imaging的数据库,当医生发现一个可疑的肿瘤时,双击当前图像后,过去其他医生拍摄过的类似图像和他们的诊断结果都会悉数被提取出来。


    可以说,一个病人的问题不再是一个医生在看,而是成千上万个医生在同时给出意见,并由来自大量其他病人的图像给出佐证。这样的数据对比,不但提高了医生诊断的效率,还提升了准确度。


    30. Entelo的“前猎头”


    真正的技术人才永远是各大公司的抢手货,绝对不要坐等他们向你投简历,因为在他们还没有机会写简历之前很可能已经被其他公司抢走了。Entelo公司能替企业家们推荐那些才刚刚萌发跳槽动机的高级技术人才,以便先下手为强。


    Entelo的数据库里目前有3亿份简历。而如何判断高级人才的跳槽倾向,Entelo有一套正在申请专利的算法。这套算法有70多个指标用于判定跳槽倾向。某公司的股价下跌、高层大换血、刚被另一大公司收购,这些都会被Entelo看作是导致该公司人才跳槽的可能性因素。


    于是Entelo就会立刻把该公司里的高级人才的信息推送给订阅了自己服务的企业家们。企业家们收到的简历跟一般的简历还不一样。Entelo抓取了这些人才在各大社交网络的信息。这样企业家们可以了解该人提交过哪些代码,在网上都回答了些什么样的问题,在Twitter上都发表的是些什么样的信息。


    总之,这些准备“挖角”的企业家能够看到一个活生生的目标人才站在面前。


    640?wx_fmt=jpeg


    31. FlightCaster和Passur的延误预测


    航空业分秒必争,尤其是航班抵达的准确时间。如果一班飞机提前到达,地勤人员还没准备好,乘客和乘务员就会被困在飞机上白白耽误时间;如果一班飞机延误,地勤人员就只能坐着干等,白白消耗成本。


    美国一家大航空公司从其内部报告中发现,大约10%的航班的实际到达时间与预计到达时间相差10分钟以上,30%的航班相差5分钟以上。FlightCaster是一家提供航班延误信息预测的公司,主要根据航空公司的航班运行情况进行预测。


    与航空公司所拥有的类似航班运行情况的专有信息一样,该公司拥有大量国内航班飞行和航班实时运行状况的历史数据。Flightcaster的秘诀就是其对大数据分析的有效利用和使用适当的软件工具对产出数据进行实时管理。


    Passur Aerospace是专门为航空业提供决策支持的技术公司。通过搜集天气、航班日程表等公开数据,结合自己独立收集的其他影响航班因素的非公开数据,综合预测航班到港时间。时至2012年,Passur公司已经拥有超过155处雷达接收站,每4.6秒就收集一次雷达上每架飞机的一系列信息,这会持续地带来海量数据。


    不仅如此,经过长期的数据收集,Passur拥有了一个超过十年的巨大的多维信息载体,为透彻的分析和恰当的数据模型提供了可能。Passur公司相信,航空公司依据它们提供的航班到达时间做计划,能为每个机场每年节省数百万美元。


    32. Climate的农业保险


    一家名为气候公司的创业企业每天都会对美国境内超过100万个地点、未来两年的天气情况进行超过1万次模拟,其数据量庞大、动态、实时。随后,该公司将根系结构和土壤孔隙度的相关数据,与模拟结果相结合,为成千上万的农民提供农作物保险。


    通过遥感获取土壤数据,这和我们过去所熟悉的通过网络服务获取用户网络行为数据不是一回事,数据的概念得以极大的扩充。要想对每块田地提供精准的保险服务,肯定还需要与土地数据相配套的农产品期货、气候预测、国际贸易、国际政治和军事安全、国民经济,产业竞争等等各方面的数。


    在如此庞杂的大数据基础上推出的商业模式是创新的,同现有农作物保险方式相比具备极大竞争力,并且是可持续和规模化的。更妙的是,这家公司基于大数据的运营,完全没有进行高额的网络设施投资,只是租用了亚马逊的公共云服务,一个月几万美元而已。


    33. Hiptype的记录阅读


    几乎所有的收费电子书都会提供部分章节让读者试读,其实,出版商需要弄清楚人们读到了哪里、读完后有没有购买,以及其他各种体验,才能卖出更多的电子书。


    美国创业公司Hiptype开发了一套电子书阅读分析工具,其商业模式就在试图解决这一难题。Hiptype自称为“面向电子书的Google Analytics”,能够提供与电子书有关的丰富数据。它不仅能统计电子书的试读和购买次数,还能绘制出“读者图谱”,包括用户的年龄、收入和地理位置等。


    此外,它还能告诉出版商读者在看完免费章节后是否进行了购买,有多少读者看完了整本书,以及读者平均看了多少页,读者最喜欢从哪个章节开始看,又在哪个章节半途而废,等等。


    Hiptype能够与电子书整合在一起,出版商无论选择哪种渠道,总是能够获得用户数据。Hiptype收集的所有数据都是匿名的。用户在下载了内置Hiptype服务的电子书时,会得到一个提示,可以选择将其屏蔽。


    34. 安客诚的“人网合一”


    网络营销存在一个巨大问题,如何获知在网上使用几个不同名称的人是否是同一个人?安诚客推出了一种名为“观众操作系统”的技术方案解决了这个问题。它允许市场营销者与你的 “数字人物”绑定,即使你由于婚姻换了名字,或者使用昵称,或者偶尔使用中名,它也照样能够解答那个已经换了地址或者电话号码的人是否是同一个人的问题。


    AOS 可以汇集不同数据库中的信息,这些数据或离线或在线,是公司可能在不同场合针对个人而收集的。通过使用AbiliTec——一种Acxiom也拥有的数字化“身份识别”技术——AOS将客户信息删繁就简,得到简单单一的结果。AOS帮助安诚客的广告客户使用他们的数据在Facebook上找到广告投放目标用户。


    640?wx_fmt=jpeg



    03 下篇:数据关联、数据废气和黑暗数据


    大数据主要不作因果判断,主要适用于关联分析。很多关联分析并不需要复杂的模型,只需要具有大数据的意识。


    很多机构都有数据废气,数据不是用完就是被舍弃,它的再利用价值也许你现在不清楚,但在未来的某一刻,它会迸发出来,可以化废为宝。


    黑暗数据就是那些针对单一目标而收集的数据,通常用过之后就被归档闲置,其真正价值未能被充分挖掘。如果黑暗数据用在恰当的地方,也能公司的事业变得光明。


    35. 数据关联分析


    某公司团队曾经使用来自手机的位置数据,来推测美国圣诞节购物季开始那一天有多少人在梅西百货公司的停车场停车,进而可以预测其当天的销售额,这远早于梅西百货自己统计出的销售记录。无论是华尔街的分析师或者传统产业的高管,都会因这种敏锐的洞察力获得极大的竞争优势。


    对于税务部门来说,税务欺骗正在日益的被关注,这时大数据可以用于增加政府识别诈骗的流程。在隐私允许的地方,政府部门可以综合各个方面的数据比如车辆的登记,海外旅游的数据来发现个人的花费模式,使税务贡献不被叠加。同时一个可疑的问题出现了,这并没有直接的证据指向诈骗,这些结论并不能用来去控告个人。但是他可以帮助政府部门去明确他们的审计和其他的审核以及一些流程。


    36. 数据废气


    物流公司的数据原来只服务于运营需要,但一经再利用,物流公司就华丽转身为金融公司,数据用以评估客户的信用,提供无抵押贷款,或者拿运送途中的货品作为抵押提供贷款;物流公司甚至可以转变为金融信息服务公司来判断各个细分经济领域的运行和走势。


    有公司已经在大数据中有接近“上帝俯视”的感觉,美国洛杉矶的一家企业宣称,他们将全球夜景的历史数据建立模型,在过滤掉波动之后,做出了投资房地产和消费的研究报告。


    麦当劳则通过外送服务,在售卖汉堡的同时获得了用户的精准地址,这些地址数据汇集之后,就变成了一份绝妙的房地产业的内部数据。


    640?wx_fmt=jpeg


    37. 黑暗数据


    在特定情况下,黑暗数据可以用作其他用途。Infinity Property & Casualty公司用累积的理赔师报告来分析欺诈案例,通过算法挽回了1200万美元的代位追偿金额。一家电气销售公司,通过积累10年ERP销售数据分析,按照电气设备的生命周期,给5年前的老客户逐一拜访,获得了1000万元以上电气设备维修订单,顺利地进入MRO市场。


    38. 客户流失分析


    美国运通以前只能实现事后诸葛亮式的报告和滞后的预测,传统的BI已经无法满足其业务发展的需要。


    于是,AmEx开始构建真正能够预测客户忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后4个月中流失的客户,已经能够识别出其中的24%。这样的客户流失分析,当然可以用于挽留客户。


    酒店业可以为消费者定制相应的独特的个性房间,甚至可以在墙纸上放上消费者的微博的旅游心情等等。旅游业可以根据大数据为消费者提供其可能会喜好的本地特色产品、活动、小而美的小众景点等等来挽回游客的心。


    39. 快餐业的视频分析


    快餐业的公司可以通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。


    40. 大数据竞选


    2012年,参与竞选的奥巴马团队确定了三个最根本的目标:让更多的人掏更多的钱,让更多的选民投票给奥巴马,让更多的人参与进来!


    这需要“微观”层面的认知:每个选民最有可能被什么因素说服?每个选民在什么情况下最有可能掏腰包?什么样的广告投放渠道能够最高效获取目标选民?如竞选总指挥吉姆·梅西纳所说,在整个竞选活中,没有数据做支撑的假设不能存在。


    为了筹到10亿美元的竞选款,奥巴马的数据挖掘团队在过去两年搜集、存储和分析了大量数据。他们注意到,影星乔治·克鲁尼对美国西海岸40岁至49岁的女性具有非常大的吸引力:她们无疑是最有可能为了在好莱坞与克鲁尼和奥巴马共进晚餐而不惜自掏腰包的一个群体。克鲁尼在自家豪宅举办的筹款宴会上,为奥巴马筹集到数百万美元的竞选资金。


    此后,当奥巴马团队决定在东海岸物色一位对于这个女性群体具有相同号召力的影星时,数据团队发现莎拉·杰西卡·帕克的粉丝们也同样喜欢竞赛、小型宴会和名人。“克鲁尼效应”被成功地复制到了东海岸。


    在整个的竞选中,奥巴马团队的广告费用花了不到3亿美元,而罗姆尼团队则花了近4亿美元却落败,其中一个重要的原因在于,奥巴马的数据团队对于广告购买的决策,是经过缜密的数据分析之后才制定的。一项民调显示,80%的美国选民认为奥巴马比罗姆尼让他们感觉更加重视自己。


    结果是,奥巴马团队筹得的第一个1亿美元中,98%来自于小于250美元的小额捐款,而罗姆尼团队在筹得相同数额捐款的情况下,这一比例仅为31%。


    640?wx_fmt=jpeg


    41. 监控非法改建


    “私搭乱建”在哪个国家都是一件闹心的事,而且容易引起火灾。非法在屋内打隔断的建筑物着火的可能性比其他建筑物高很多。纽约市每年接到2.5万宗有关房屋住得过于拥挤的投诉,但市里只有200名处理投诉的巡视员。


    市长办公室一个分析专家小组觉得大数据可以帮助解决这一需求与资源的落差。该小组建立了一个市内全部90万座建筑物的数据库,并在其中加入市里19个部门所收集到的数据:欠税扣押记录、水电使用异常、缴费拖欠、服务切断、救护车使用、当地犯罪率、鼠患投诉等等。


    接下来,他们将这一数据库与过去5年中按严重程度排列的建筑物着火记录进行比较,希望找出相关性。果然,建筑物类型和建造年份是与火灾相关的因素。不过,一个没怎么预料到的结果是,获得外砖墙施工许可的建筑物与较低的严重火灾发生率之间存在相关性。


    利用所有这些数据,该小组建立了一个可以帮助他们确定哪些住房拥挤投诉需要紧急处理的系统。他们所记录的建筑物的各种特征数据都不是导致火灾的原因,但这些数据与火灾隐患的增加或降低存在相关性。这种知识被证明是极具价值的:过去房屋巡视员出现场时签发房屋腾空令的比例只有13%,在采用新办法之后,这个比例上升到了70%。


    42. 榨菜指数


    负责起草《全国促进城镇化健康发展规划(2011-2020年)》(以下简称“城镇化规划”)的国家发改委规划司官员需要精确知道人口的流动,怎么统计出这些流动人口成为难题。


    榨菜,属于低质易耗品,收入增长对于榨菜的消费几乎没有影响。一般情况下,城市常住人口对于方便面和榨菜等方便食品的消费量,基本上是恒定的。销量的变化,主要由流动人口造成。


    据国家发改委官员的说法,涪陵榨菜这几年在全国各地区销售份额变化,能够反映人口流动趋势,一个被称为“榨菜指数”的宏观经济指标就诞生了。国家发改委规划司官员发现,涪陵榨菜在华南地区销售份额由2007年的49%、2008年的48%、2009年的47.58%、2010年的38.50%下滑到2011年的29.99%。


    这个数据表明,华南地区人口流出速度非常快。他们依据“榨菜指标”,将全国分为人口流入区和人口流出区两部分,针对两个区的不同人口结构,在政策制定上将会有所不同。


    640?wx_fmt=jpeg


    43. 天气账单


    常言道,“天有不测之风云”,遇到过出门旅游、重要户外路演、举办婚礼等重要时刻却被糟糕的天气弄坏心情甚至造成经济损失的情况吗?


    全球第一家气象保险公司“天气账单”能为用户提供各类气候担保。客户登录“天气账单”公司网站,然后给出在某个特定时间段里不希望遇到的温度或雨量范围。“天气账单”网站会在100毫秒内查询出客户指定地区的天气预报,以及美国国家气象局记载的该地区以往30年的天气数据。通过计算分析天气数据,网站会以承保人的身份给出保单的价格。这项服务不仅个人用户需要,一些公司,比如旅行社也很乐意参与。


    一家全球性饮料企业将外部合作伙伴的每日天气预报信息集成,录入其需求和存货规划流程。通过分析特定日子的温度、降水和日照时间等3个数据点,该公司减少了在欧洲一个关键市场的存货量,同时使预测准确度提高了大约5%。


    44. 历史情景再现


    微软和以色列理工学院的研究人员已开发出一款软件,能根据过去20年《纽约时报》的文章以及其他在线数据预测传染病或者其他社会问题可能会于何时何地爆发。


    在利用历史数据进行测试时,该系统的表现十分惊人。例如,根据2006年对安哥拉干旱的报道,该系统预测安哥拉很可能发生霍乱。这是由于,通过此前发生的多起事件,该系统了解到在干旱出现的几年后霍乱爆发的可能性将上升。


    此外,该系统根据对2007年初非洲大型飓风的报道,再次对安哥拉发生霍乱做出预警。而在不到一周之后,报道显示安哥拉确实发生了霍乱。在其他测试,例如对疾病、暴力事件及伤亡人数的预测中,该系统的准确率达到70%至90%。


    该系统的信息来自过去22年中《纽约时报》的报道存档,具体时间为1986年至2007年。不过,该系统也利用了网络上的其他一些数据,了解什么样的事件会带来特定的社会问题。这些信息来源提供了不存在于新闻文章但却有价值的内容,有助于确定不同事件之间的因果关系或前后关系。


    例如,该系统能够推断卢旺达和安哥拉城市之间所发生事件的关系,因为这两个国家都位于非洲,有着类似的GDP,其他一些因素也很相似。根据这种方法,该系统认为,在预测霍乱爆发方面,应当考虑国家或城市的位置,国土面积有多少是水域,人口密度和GDP是多少,以及近几年是否发生过干旱。


    负责此项研发工作的Horvitz表示,近几十年来,世界的许多方面都发生了改变,不过人类的本性和环境的许多方面仍然未变,因此软件可以从以往的数据中了解事情发生的模式,从而预测未来会发生什么。他表示:“对于回溯更久之前的数据,我个人很感兴趣。”


    此类预测工具的市场正在形成。例如,一家名为RecordedFuture的创业公司根据网上的前瞻性报道和其他信息来源预测未来事件,该公司的客户包括政府情报部门。该公司CEOChristopherAhlberg表示,利用“硬数据”来进行预测是可行的,但从原型系统到商用产品还有很长的路要走。


    640?wx_fmt=jpeg


    45. Nike+传感鞋


    耐克凭借一种名为Nike+的新产品变身为大数据营销的创新公司。所谓Nike+,是一种以“Nike跑鞋或腕带+传感器”的产品,只要运动者穿着Nike+的跑鞋运动,iPod就可以存储并显示运动日期,时间、距离、热量消耗值等数据。用户上传数据到耐克社区,就能和同好分享讨论。


    耐克和Facebook达成协议,用户上传的跑步状态会实时更新到账户里,朋友可以评论并点击一个“鼓掌”按钮——神奇的是,这样你在跑步的时候便能够在音乐中听到朋友们的鼓掌声。


    随着跑步者不断上传自己的跑步路线,耐克由此掌握了主要城市里最佳跑步路线的数据库。有了Nike+,耐克组织的城市跑步活动效果更好。参赛者在规定时间内将自己的跑步数据上传,看哪个城市累积的距离长。


    凭借运动者上传的数据,耐克公司已经成功建立了全球最大的运动网上社区,超过500万活跃的用户,每天不停地上传数据,耐克借此与消费者建立前所未有的牢固关系。海量的数据对于耐克了解用户习惯、改进产品、精准投放和精准营销又起到了不可替代的作用。


    46. 沃尔沃的工业互联网


    在沃尔沃集团,通过在卡车产品中安装传感器和嵌入式CPU,从刹车到中央门锁系统等形形色色的车辆使用信息,正源源不断地传输到沃尔沃集团总部。


    “对这些数据进行分析,不仅可以帮助我们制造更好的汽车,还可以帮助客户们获取更好体验。”沃尔沃集团CIORichStrader说。这些数据正在被用来优化生产流程,以提升客户体验和提升安全性。


    将来自不同客户的使用数据进行分析,可以让产品部门提早发现产品潜在的问题,并在这些问题发生之前提前向客户预警。“产品设计方面的缺陷,此前可能需要有50万台销量的时候才能暴露出来,而现在只需要1000台,我们就能发现潜在的缺陷。”


    47. McKesson的动态供应链


    在美国最大的医药贸易商McKesson公司,对大数据的应用也已经远远领先于大多数企业,将先进的分析能力融合到每天处理200万个订单的供应链业务中,并且监督超过80亿美元的存货。


    对于在途存货的管理,McKesson开发了一种供应链模型,它根据产品线、运输费用甚至碳排放量而提供了极为准确的维护成本视图。据公司流程改造副总裁RobertGooby说,这些详细信息使公司能够更加真实地了解任意时间点的运营情况。


    McKesson利用先进分析技术的另一个领域是对配送中心内的物理存货配置进行模拟和自动化处理。评估政策和供应链变化的能力帮助公司增强了对客户的响应能力,同时减少了流动资金。总体来讲,McKesson的供应链转型使公司节省了超过1亿美元的流动资金。


    640?wx_fmt=jpeg


    48. 纸牌屋与电影业


    《纸牌屋》最大的特点在于,与以往电视剧的制作流程不同,这是一部“网络剧”。简而言之,不仅传播渠道是互联网观看,这部剧从诞生之初就是一部根据“大数据”,即互联网观众欣赏口味来设计的产品。


    Netflix成功之处在于其强大的推荐系统Cinematch,该系统基于用户视频点播的基础数据如评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析,计算出用户可能喜爱的影片,并为他提供定制化的推荐。为此他们开设了年Netflix大奖(点击查看获奖算法),用百万美元悬赏,奖励能够将其电影推荐算法准确性提高至少10%的人。


    未来的电影制作成本将大幅降低,一千粉丝足以使电影成功。还是像《技术元素》里说:“目光聚集的地方,金钱必将追随。”


    49. 点评与餐饮业


    美国很多州政府在与餐饮点评网lep展开合作,监督餐饮行业的卫生情况,效果非常好。人们不再像以前那样从窗口去看餐馆里的情况,而是从手机APP里的评论!在中国的本地化O2O点评比如大众点评、番茄点等等,消费者可以对任何商家进行评判,同时商家也可以通过这些评判来提升自己的服务能力,在环节上进行更大力度的效率优化。


    未来的餐饮行业将会由互联网和社会化媒体上所产生和承载的数据彻底带动起来,会有越来越多的人加入点评中,餐馆优胜劣汰的速度将会大幅加快。


    内容来自于网络,如有版权问题请与我们联系。


    640?wx_fmt=gif


    更多精彩


    在公众号后台对话框输入以下关键词

    查看更多优质内容!


    PPT | 报告 | 读书 | 书单 | 干货

    Python | 机器学习 | 深度学习 | 神经网络

    区块链 | 揭秘 | 高考 | 福利


    推荐阅读




    Q: 还有哪些大数据应用的经典案例

    欢迎留言与大家分享

    觉得不错,请把这篇文章分享给你的朋友

    转载 / 投稿请联系:baiyu@hzbook.com

    更多精彩,请在后台点击“历史文章”查看

    640?wx_fmt=jpeg

    展开全文
  • 大数据时代的数据价值与发展趋势

    千次阅读 2018-12-02 14:48:29
    大数据之所以能称之为大除了数据量的庞大,还有就是数据价值的放大,即大数据要有大价值。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。未来我们的生活...
  • 大数据时代的数据价值与利用

    千次阅读 2018-03-02 16:41:39
    大数据时代的数据价值与利用随着信息技术的发展,生活发生了天翻地覆的变化,同时,它也改变着人们的思维模式。 现在我们之所以能接触到如此多的信息,是得益于网络技术与数据存储技术的发展。而要管理和利用这些...
  • 作者:张涵诚 ...了解政府大数据应用的案例和数据价值释放的方法,将有利于激活沉睡的数据,释放政府数据价值。为此我们需要梳理下: 一、政府有哪些数据资产 政府拥有或控制,能够给政
  • 点击上方蓝字关注我们 面向价值实现的数据资产管理体系构建李雨霏1,刘海燕2,闫树11中国信息通信研究院,北京 1001912平安国际融资租赁有限公司科技驱动部,上海 201...
  • 作者 | 袁绍龙出品 | 大数据在线如果说石油定义了二十世纪,那么数据正在迅速改变着二十一世纪。尤其是数字化以前所未有的步伐前进,数据正在成为整个社会运转的基础。正如舍恩伯格在《大数据时...
  • 数据资产价值评估常用方法及对比

    千次阅读 2020-12-21 09:45:23
    常用方法简介 ...成本法对有些数据资产价值评估存在一定合理性,比如,以成本分摊为目的的数据资产价值评估。 利用收益法对数据资产价值评估时,需要预计数据资产带来的收益进而估计其价值。这种方法在实际中
  • 数据分析最具价值的49个案例(建议收藏)

    万次阅读 多人点赞 2019-01-04 16:18:44
    本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率;三是以...
  • 最近,频上热搜的《流浪地球》,...其中,在地球即将毁灭之时,人类文明的数据将被存储至万年甚至百万年的片段,让我们对如此庞大的数据存储,陷入了深深的思考。 回到现实社会,数据让各行各业变得蒸蒸日上,在这1...
  • 第6章 数据开发:数据价值提炼工厂 汇聚联通到中台的数据,基本是按照数据的原始状态堆砌在一起的,是企业对过往所有IT信息化建设积累的成果的融合。数据开发是数据资产内容建设的主战场,是数据价值生产过程中的...
  • 7.4 标签数据层建设——数据价值魅力所在 统一数仓层是按照数仓的维度规范建模,对业务数据进行了重新组织标准化。但是同一个对象的各种信息分散在不同的数据域并且有不同的数据粒度。比如客户数据,基本信息在客户...
  • 无可厚非,这两年Defi的蓬勃发展,使得它在加密领域占据...随着人们越来越重视个人数据的安全和隐私,解决消费者不安全感的问题,更需要一种新技术,不仅允许用户控制数据的使用方式,还可以通过公平、开放的交换让用
  • 这种中心化的处理方式,尽管能够创造规模化的信息价值,但却疏漏了海量的碎片性、分布式、个性化的数据,并使得这些数据经年累月地埋没在互联网浪潮之下,沦为沉睡数据。 这些基于用户行为产生的碎片化数据,其实...
  • 数据价值,是什么?

    千次阅读 2018-08-31 09:49:07
    上篇我们说了,数据可确权,就可以把价值映射到数据上,不依赖特定中心的可确权数据,就可实现不依赖特定中心的价值映射。很不幸地,我们要开始牵扯进一个很难说清楚的词:价值。 即使除去马克思经济学里那种“价值...
  • 一个完善的企业级数据分析平台的价值是不可估量的,由于其数据来源于各个业务系统,所以其价值有时很容易和业务系统的价值混淆在一起,无法很好的量化,为此总结了以下几点: 1、打通数据壁垒,实现信息透明。底层...
  • 大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响 人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和...
  • 2016年,阿里巴巴集团提出中台概念,阿里巴巴数据技术及产品部作为中台战略中的组成部分,承载了集团数据中台的工作,其核心就是建设全域大数据。究竟全域数据到底是什么?又该如何建设? 在云栖大会阿里...
  • 大数据的价值体现在哪?大数据时代已经来临,它将在众多领域掀起变革的巨浪。 因此,针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。我们相信,在国家的统筹规划与支持下,通过各地方...
  • 大数据公司数据挖掘的49个案例

    千次阅读 2021-02-08 00:00:00
    本文是近年来不同行业、不同领域的大数据公司的一些经典案例总结。尽管有些已经是几年前的案例,但其中的深层逻辑对于未来仍有启发。本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:...
  • 在越来越多企业重视“大数据”价值的同时,新型数据的挑战也随之而来。 据IBM商业价值研究院和牛津大学赛德商学院共同发布的《分析:大数据在现实世界中的应用》显示,全球仅四分之一的受访者表示自己具备了分析...
  • 数据治理之元数据管理

    千次阅读 2020-04-10 10:50:15
    数据通常定义为”关于数据数据”,元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。元数据打通了源数据数据仓库、数据应用,记录了数据从产生到消费的全过程...
  • 0、IT桔子和36Kr在专栏文章中(http://zhuanlan.zhihu.com/p/20714713),抓取IT橘子和36Kr的各公司的投融资数据,试图分析中国各家基金之间的互动关系。 1、知乎沧海横流,看行业起伏,抓取并汇总所有的答案,方便...
  • 数据挖掘之用户价值分析

    千次阅读 2015-08-26 15:47:45
    谁在使用我的网站——用户忠诚和价值分析   前面介绍的都是一些用户的行为指标和用户细分,这里要介绍的是基于每个用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的...
  • 出租车GPS轨迹数据和手机数据的研究价值 原文:http://www.zdor.cn/news/html/zx/234027.html 作者:@高松-GISer (加州大学圣塔芭芭拉分校地理系、美国国家地理信息分析中心NCGIA at Santa ...
  • 数据中台建设的价值架构 数据中台的终极使命是赋予数据资产价值变现的能力,无论是通过业务赋能的形式隐性变现,还是通过数据服务公开交易的直接变现。它们都需要一个很重要的基础条件“数据资产化”。 数据中台...
  • 将这些数据点导入分析软件,可获得改善制造过程和提高生产率的有价值信息。制造业数据挖掘系统还可以降低运输,包装,仓储的花费,库存成本应而大大降低。很多汽车制造商在生产之前,会利用大量的数据通过软件分析去...
  • 银行数据治理的9大核心领域

    千次阅读 2019-07-19 17:00:10
    风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治理的外部推动因素。此外,随着第三次工业革命的到来,银行业也需要进入定制化时代,以更低的成本,生产多样化的金融产品,从而满足不同...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 724,475
精华内容 289,790
关键字:

数据价值