订阅云计算RSS CSDN首页> 云计算

大数据研究与发展专题论坛:大数据在各领域中的应用及发展策略

发表于2013-12-09 14:43| 次阅读| 来源CSDN| 0 条评论| 作者陈秋歌

摘要:在2013BDTC“大数据研究与发展”专题论坛上,来自中国科学院、交通银行、伊利诺伊大学、西北工业大学、新加坡管理大学、华东师范大学软件学院的多位演讲嘉宾针对大数据在各领域中的应用及发展策略展来了深入探讨。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会—— 2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。

12月6日下午举行的“大数据研究与发展”专题论坛上,华东师范大学云计算与大数据研究中心主任周傲英担任论坛主席,中国科学院院士、数学与系统科学研究院研究员陆汝钤,交通银行软件开发中心副总经理刘雷,伊利诺伊大学新加坡高等数字科学中心研究科学家张振杰,西北工业大学计算机学院教授李战怀,新加坡管理大学信息系统学院助理教授朱飞达,华东师范大学软件学院副教授周敏奇多位演讲嘉宾针对大数据在各领域中的应用及发展策略展开了深入探讨。


周傲英担任论坛主席,对演讲嘉宾及演讲内容进行概要介绍

中国科学院院士、数学与系统科学研究院研究员陆汝钤:超大规模知识工程

中国科学院院士、中科院数学与系统科学研究院研究员陆汝钤在主题为《超大规模知识工程》的演讲中重点回顾了知识工程的发展历程,并对未来发展进行了展望。


中国科学院院士、中科院数学与系统科学研究院研究员 陆汝钤

1968年,第一个专家系统“启发式DENDRAL”问世,预示着第一代知识工程,即中小规模知识工程的开始。1978年,第一个国产专家系统问世,知识工程从此进入中国。第一代知识工程为社会带来了显著的经济效益,但专家系统知识的局限性,使其只能很好地解决具体问题,离开特定领域后则显得无能为力。

第二代知识工程(大规模知识工程)从1980年开始,代表性技术为海量知识库,数量级达百万,如1984年Doug Lenat开发的Cyc大型知识库。作为人工智能的补充,人们在知识的获取与组织上,开始逐渐采用软件工程思想。而这也进一步导致了知识内容一致性问题、知识的独立商品化问题及知识开发的“群众路线”问题。

2000年,知识工程进入超大规模阶段,即第三代知识工程。这一阶段,因特网、万维网、搜索引擎和浏览器兴起,整个搜索网页数达到数十/百亿,使因特网成为知识获取的主要来源。正如知识工程挽救人工智能颓势一样,网上知识工程成为主要生长点,但浏览器提供给人们的海量网页,从本质上是无法利用的,需要用户从中查找、整理所需的知识。

第四代知识工程,又名极大规模知识工程,是人们对未来知识工程发展的展望。该阶段的知识量级将达T级,浏览器将集浏览、挖掘、编辑、出版一体化,同时每个人都可拥有自己的因特网,知识可以像空气一样自动传播,知识服务将成为最重要的服务业。

交通银行软件开发中心副总经理刘雷:商业银行大数据应用的探索与实践

交通银行软件开发中心副总经理刘雷主要围绕大数据时代的机遇与挑战、大数据战略的实践与探索、大数据建设的展望与设想三个方面分享了商业银行在大数据应用上的探索与实践。


交通银行软件开发中心副总经理刘雷

随着银行业的迅猛发展,其正面临着来自内部及外部两方面的压力,内部压力主要有运营成本增加、人员规模增长、精细化管理及业务拓展;外部压力则表现为机器所产生的大量数据、社交网络对人际关系的改变及互联网金融的崛起。刘雷表示,银行在以前的大数据管理中存在诸多误区,如重数据应用,轻数据管控;认为实施大数据只是技术性工作;认为实施大数据战略就是建设数据仓库;必须有配套的组织机构建设。

这些压力反过来又对银行的发展带来新的启示,并催生出新的变革,其中包括思维变革、方法变革、数据管理。思维变革,强调数据的发展趋势与关联关系——不再依赖随机采样数据,着眼于更多数据;不再追求精确性,更强调混杂性;不再热衷于寻求因果关系,而是要从太阳底下的一切事物中汲取信息。方法变革,利用敏捷原则,以实现尽早、持续的数据探索和发现洞察力。数据采集、数据预处理、数据存储、数据分析、结果展现为数据管理中的五大关键点。

关于未来大数据的建设,刘雷表示数据平台未来应该更具开放性,但对于银行来说,安全和开放又相互矛盾,这是未来应该重点考虑的问题。另外,数据处理要更具实时性,即在交易过程中即可实时模拟,保证交易的安全性等。

伊利诺伊大学新加坡高等数字科学中心研究科学家张振杰:大数据时代的隐私保护:挑战和机遇

伊利诺伊大学新加坡高等数字科学中心研究科学家张振杰首先通过具体实例,分析了挖掘隐私信息的诸多方法,并介绍了两种比较传统的隐私保护模型及它们存在的局限性,同进重点阐述了学术圈认为目前最可靠的隐私保护新模型。


伊利诺伊大学新加坡高等数字科学中心研究科学家张振杰

第一种传统隐私保护模型为K-anonymity,它使用简单,但并未明确定义隐私概念及考虑攻击者所了解的背景信息,很容易被攻破。L-diversity,作为第二种传统隐私保护模型,与K-anonymity的最大区别是确保泛化后的敏感属性充分具有多样性。张振杰表示对攻击者的背景信息缺乏假设,从数据上来说缺乏描述,是K-anonymity及学术圈中另外100多种隐私保护模型普便存在的问题。

最后,张振杰认为在隐私安全得到保护的前提下,进一步获得大数据所带来的效益,可采用增加Laplace噪音的方式。当Laplace噪音增加到一定程度时,可以增加隐私的安全性。

西北工业大学计算机学院教授李战怀:大数据背景下分布式系统的数据一致性策略

西北工业大学计算机学院教授李战怀在主题演讲中表示一致性是数据最关键的属性之一。随着计算技术的发展,硬件基础及应用需求的变化给数据一致性的处理提出了新的需求。关系数据库建立之初就是为应对“大数据”的管理问题,特别是并发操作的数据一致性问题。而在分布式系统中的一致性,具有规模巨大、分布广泛的特点,其中副本成为处理大数据一致性的难题。


西北工业大学计算机学院教授李战怀

处理数据一致性时常用的模型包含强一致性、弱一致性及最终一致性。其中BASE模型为倾向最终一致的模型。可使用的一致性控制技术及策略有本地(集中)并发控制、分布式并发控制及NWR策略等。李战怀对一致性理论与相关技术进行了总结。

关于分布式系统的一致性选择方面,李战怀重点强调了CAP和PACELC原理。PACELC是对CAP的反思与补充。他指出系统设计的时候需要进行各式各样的权衡,这并不是一个简单的CAP或者PACELC就能够解决的,需要按需决策。不同领域对不一致性的容忍程度是不同的,容忍程度是系统设计时需要重点考量的因素。有很多场景甚至也可以用优雅的外部方式处理不一致性带来的问题(与领域相关并需要领域知识)。

最后,他总结数据处理系统对一致性的需求始终存在。大数据背景下一致性存在多种选择,不同的应用场景适用不同的一致性,没有最好只有最适合;企业级应用对于强一致性的需要将长期存在;未来甚至可以会出现混合一致性(多种一致性共存,甚至存在于一个应用中)。

新加坡管理大学信息系统学院助理教授朱飞达:社交媒体大数据挖掘及智能商业应用

新加坡管理大学信息系统学院助理教授朱飞达在演讲中通过分析社交媒体数据与企业所收集到的数据间的差异性,强调了社交媒体数据在设计商业应用过程中所起到的重要作用。社交媒体帮助商业应用最终要达到的目标应为,对的时间对的地点给对的人推荐对的服务。


新加坡管理大学信息系统学院助理教授朱飞达

然而在利用这些社交媒体数据时,又将面临四大挑战,即用户线上与线下行为如何打通;如何把用户在不同社交媒体上的帐号连接起来——这项工作很有意义,同样难度也很大;其次则为实时响应及数据可用性。应对这些挑战,最好的解决办法是对用户行为进行研究,用户行为数据是社交媒体所独有的。

在演讲最后,朱飞达还介绍了目前在社交媒体数据方面所做的工作。其中一个项目为“Offline Relationship Mining”,意在从社交媒体中找到用户线下真实世界中的朋友。另一个项目专注于把用户在不同社交媒体上的帐号连接起来,以期获得用户完整的信息,该项目将于明年发表。最后一个项目则是通过用户集群行为,寻找到社交网络中的营销帐号及垃圾帐号。

华东师范大学软件学院副教授周敏奇:CLIAIMS——集群感知的内存计算系统 

华东师范大学软件学院副教授周敏奇分享了过去一年半时间开发CLAIMS(CLuster-Aware In-Memory System for high performance data analysis)的历程和感受。为什么开发这样的系统?他表示当前很多企业需要实时性分析系统,而现在计算机硬件的发展已使实时分析成为可能。内存集群计算是应用需求和硬件发展的必然趋势,但通讯墙问题却成为阻碍内存集群计算发展的主要瓶颈。开发CLAIMS主要是为了解决内存通讯墙的问题。


华东师范大学软件学院副教授周敏奇

CLAIMS主要面向OLAP型应用(类似Teradata),以处理关系数据库为主,可扩展到非结构化数据,采用按列存储数据,意在解决通讯墙问题。CLAISMS系统在实时处理数据分析方面已获得较高性能。目前,CLAISMS的系统主体开发已经完成。计划2014年4、5月份开源CLAISMS的首个版本。

更多精彩内容,请关注直播专题2013中国大数据技术大会(BDTC)  ,新浪微博@CSDN云计算。 

0
0