订阅云计算RSS CSDN首页> 云计算

工信部电信研究院政经所互联网部主任马志刚:数据开放共享问题研究

发表于2013-12-05 17:00| 次阅读| 来源CSDN| 0 条评论| 作者仲浩

摘要:工信部电信研究院政经所互联网部主任马志刚发表了题为《数据开放共享问题研究》的演讲,分享了数据开放利用的形势和意义、美国数据开放利用战略的发展历程和实践经验及推动我国数据开放共享和开发利用的意见和建议。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会—— 2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。

BDTC 2013中国大数据技术大会首日全体大会上,工信部电信研究院政经所互联网部主任马志刚发表了题为《数据开放共享问题研究》的演讲,分享了数据开放利用的形势和意义、美国数据开放利用战略的发展历程和实践经验及推动我国数据开放共享和开发利用的意见和建议。在第二个部分马志刚提到,以国家成文立法,规定政府部门法定必须开放的数据范围,才能为政府数据开放战略提供法律保障。同时还需要制定相关政策,大力实行“开放透明”


以下为演讲实录:

马志刚:在座的各位从行们大家好,我叫马志刚,我是来自于工信部电信研究院政经所,今天非常荣幸在这里跟大家就大数据这个话题下探讨一下我们看法。我给大家演讲题目是《数据开放共享问题研究》。

数据滚雪球效应和马太效应越来越大

大家都知道大数据时代现在已经到来了,数据开放和共享问题也是和大数据问题息息相关的。与这个问题几乎同一时期产生并随着这个问题的发展而越来越尖锐,现在变得几乎可以说是我们行业里面临最重要的问题。数据开放与共享问题是大数据问题解决的一个前提条件。为什么这么讲?我们现在大数据产业的发展或者行业的发展,技术的发展,面临一个严峻的形势,那就是整个的数据现在开放的部分,也就是在数据量级里面已经能够开放的部分是非常有限的。大量的数据没有开放,这些数据是存储起来的,还有在专网存储没有被公网抓取利用。数据被掌控者越来越私有化,这是商业时代必不可少的一种趋势,但是我们说这种趋势的存在对大数据的发展构成一种挑战。数据滚雪球效应和马太效应越来越大,占有数据的一方量级越来越大,未占有的数据一方越来越小,导致两极分化。

所以数据开放与共享这个问题解决显得尤为急迫,我探讨一下数据共享与开放是什么问题,这个问题通过什么途径解决?这个问题是非常复杂、结构体系非常庞杂的一个命题,对这个命题本身进行解剖相当困难。这里面存在一个数据种类划分的问题,比如说公共数据、政府数据、行业数据、企业数据最终还有个人数据。这些数据里面存在保护问题,这些数据都要获得保护,这里面还存在开放问题、公开问题及共享问题,最后还有一个使用和管理的问题,所有的这些命题纠缠在一起,就使得我们大数据从事从业人员,在所有线索里面理清一些思路出来相当不容易。我们试图在这些命题里面进行一番梳理,之后回答现在面临比较尖锐问题——共享。

我演讲分几部分,首先是数据开放与利用形势利益;然后谈谈美国的数据开放发展历程和实战经验;最后推动我国数据开放共享的若干建议。

数据开放与利用形势利益

根据我们研究,我们认为数据开放与共享是提高社会生产力的重要前提。我们研究认为数据开放利用程度越高,信息知识作为生产要素就会越高。数据开放利用是推动社会全面发展的力量。数据开放共享是建立数据驱动式增长模式的必要途径,基于这些原因考虑哪些数据可以共享。

美国开放发展历程和实战经验

美国通过立法赋予社会公众数据获有权,这是公民的基本权利,是受美国宪法保护的权利,公民对于政府数据有获取权,美国通过立法战略等等一些工具,设计政府数据的开放原则,比方说政府数据必须以公开为原则,以不公开为例外,政府数据面前人人平等,政府拒绝提供信息的时候必须有举证责任,司法有重新审定政府数据开放实事的权利。若政府对一些数据不开放,公民有异议的时候,公民可以把政府告到法院,司法对有审查的权利。

美国采取了类似于负面清单的方式,它规定了数据开放的一个范围。它列举了除了某些数据之外其他数据都必须开放。在美国,不予以开放的数据包括:国防、外交、内部人士消息等等九类信息,除此以外,其他信息都要开放。美国还以立法政策推进政府型资源的综合开发利用。美国1985年制定联邦信息资源管理政策的战略,它推进政府信息资源要在全美范围内进行综合开发和综合利用。

美国开放实施透明政府计划,奥巴马上台以后经历了三个阶段,对推动政府数据开放做出不可磨灭的贡献,美国依然实施奥巴马总统提出来的开放实施透明政府计划。

第一个阶段是从2009年到2010年结束,这个时期美国建立了透明政府计划的准则;2009年制定了开放政府计划的备忘录,这些战略行动确定了开放透明政府计划的一些原则。

第二阶段是从2010年开始到2012年结束,这时候美国推广开放透明政府的整体计划蓝图。这个战略行动包括美国2012年发布的数字政府建设,数字政府提出了美国的三大政务目标、一个战略模型、三大战略举措。美国政府号召美国联邦政府机关必须以开放政府数据作为己任,把美国开放透明政府计划落到实处,美国政府应当通过电子政务计划建设信息层、展现层、开发层,整体上通过技术手段把联邦现有的数据量以无限体量的方式面向社会进行开放和共享。

第三阶段是2013年,这个阶段美国政府制定和发布了两个战略文本。第一,文本开放数据政策将信息作为资产管理。第二,政策文本实现政府信息公开化和机器可读取化政府令。所有这些归结为一点奥巴马政府配合它大数据的倡议战略,他同步进行了一项重要战略就是推进美国政府公开透明计划,两步走的战略,把美国确定为发展为治理自由的国家,确保美国在信息、资源、知识结构这方面具有超前的战略能力和优势,不被其他国家所超越,这是它的总体战略目标。

推动我国数据开放共享,开发利用的一些思考

首先就是说基本制度设计这方面,我们经过梳理以后就是在国外广泛推行的数据开发共享的这些制度,包括信息公开,公共获取,自由流动,信息寄存,信息存储、出版、国家许可证,这些制度都供我们国家借鉴的制度资源,我们可以在这些制度资源基础上,想办法设计我们国家的数据资源开发和共享所依赖的制度环境。另外像欧盟设计一些其他的原则,这个数据开放共享设定一些条件,对于数据开放与共享是不是收费,可以制定一些禁止原则,数据开放与共享禁止以商业利益为利用,这些我们都可以借鉴。

我们在开放与共享的范围上,什么数据什么资源可以开放?这是很难的问题。刚才我讲我们国家和美国制度不一样,我们是公有制为主体国家,美国是私有制为主体的国家,美国保有私有制产权是神圣不可侵犯的权利,是宪法原则。我们中国是公有制国家,两种制度相比较,我们在大数据开放与共享比美国更加有优势。美国数据开放与共享,今天仅仅停留在政府数据,政府信息资源上,我们以后可以把范围扩大到非政府组织,我们说在理论和实际上我们可以把哪些数据开发共享,最后,公共物品属性的数据我们都可以定义为开放和共享。公共物品属性一个公共数据具有非竞争性,就是说一个人使用这个数据资源同时其他人也可以使用,你无法利用你自己力量排除别人使用信息公共资源,或者你排除这个人使用信息公共资源成本将是巨大的是你无法承担的,这时候我们定义为公共资源或者公共数据。通过市场机制提供,非排他性,非私有性,我们通过三个原则界定。

大家可以得出结论,我们国家设定这样一些基本的制度理念,就是说直接间接利用政府财政拨款来完成的这些信息资源或者这些数据,或者说直接间接利用财政转移支付资金实现的这些数据或者科研项目,或者直接间接利用国有资产收益完成的这些数据,只要跟公共财政跟国有资产有关,依赖这些资源基础完成实现的数据资源我们觉得都应当面向社会进行开放和共享。为什么这样设计?主要理由这样设计能够确保我们国家大数据的产业真正依据量级的速度和模式发展,确保大数据产业能够在我们国家成为一个战略性新兴产业,确保我们这个产业为我们国家经济发展贡献巨大的力量。

另外,我们可以设计出一些原则,数据开放与共享的原则,比如说公共数据面前人人平等的原则,所有人对于公共数据都有权利,无论年龄、身份、地位都可以面向公共数据,都可以提出开放共享的要求。另外技术手段和技术措施必须具有开放性、兼容性和互操作性的原则,这是互联网广泛通行的原则,就是说我们尽量不要对公共数据开放与共享设定一些技术限制,或者设定一些技术障碍。第三,设定一些公共数据开发共享的数量质量原则,确保数据是非结构化的、结构化的,确保数据是积极可读肉眼可读的数量和质量原则,这样的话设计这些原则初衷也是考虑让我们数据开放整个的初衷和目标落到实处。

我们试图设定一些重要的内容,对于公共数据的概念,我们可以界定为是公共数据通常包括公共利益主要为内部使用不排除为公共利益收集存储加工等等这些数据。对公共数据的所有人我们可以在我们国家界定下面这些单位,比如说行政机关、公务员管理的单位,他们单位有的依靠行政拨款,财政拨款从事一些科研工作,科研开发等等,他们所完成的成果应当纳入我们整个数据开发共享的范畴。还有受托行使政府职能的其他组织,还有教育科研,教育科研是国家民族知识经济发展一个最主要的一个基础或者最主要的决定性因素,对于这些开放与共享是决定大数据发展真正的要点或者说是要件,所以我们应当参考美国的一些制度设计,把教育科研产生的教育项目和科研成果让它最大化进行公开和共享,这对大数据产业发生作用最大,最能够契合大数据战略的初衷。行业组织其他社会团队这些单位掌控的数据是不是应该开放与共享,在自然垄断排他的国有企业他们从事经营型非经营型活动依靠国有资产收益完成的数据资源,是不是依据一定条件进行开放共享,这样尽量把我们大数据的体量做到最大,只有做到最大我们才能具有优势,才能和其他国家进行竞争,我们考量主要是这样一个初衷一个基本的出发点。主要的制度设计制度内容,我们把数据范围界定为如下品类,这是参照十二五电子政务规划的一些分类。对公共数据要进行分类,我们可以基本上分为立法信息、基础信息、宏观调控信息、社会管理信息、公共管理信息、市政公共信息、对公共数据分类是公共数据开放与共享的挑战点,在我们国家各行各业数据都要开放这个工作本身非常艰巨,开放数据开放共享行业所掌握的数据,对数据进行分类做一个目录一个清单是这项工作开展的前提或者第一步。

对于开放、共享、使用等等这些概念我们有初步的界定。比如说公开我们可以界定为许可特定或者不特定的人知悉一些公共的数据,就是要让这些人知道这个数据这叫公开,就是确保公民或者企业它的知情权。开放只许可不特定的公众获取这个数据资源,确保公民这些企业被开放主体获取权,公共数据的获取权在我们国家不是作为基本权利被提出现在没有确认,以后我们希望把公共数据获取权配合大数据产业发展一块确定是我们国家公民一项基本权利。还有一个共享,指特定不特定社会公众拥有数据,共同拥有这个数据,共同要占有,这个在口径上在开放的口径上,或者说整个大数据产业相对公共数据利用而言开发利用口径上要比开放公开更大,所以说能够做到共享这是一项非常不容易的事情。我们需要指出美国政府开始做共享工作,美国政府从2012年5月份上线了一个公共数据政府数据共享网站,这个网站就是一个共享网站,这个网站是美国联邦政府把各联邦机关数据收集在一起,以数据集的形式通过一个网站面向美国公民开放共享的主要信息平台,我们国家是不是走共享的这条道路,参照美国的模式,现在上海、广州有一些地方政府考虑把地方政府数据通过共享网站的方式,向社会提供共享和开放。

另外就是使用,使用我们应该给出一个定义,基于开放共享,许可特定不特定开发利用使用。管理是凌驾开放、公开、共享、使用凌驾四者之上一项综合的基础工程。管理指公共数据资源占有人,为了实现公共数据的价值,围绕开放共享、开发、利用展开的组织协调活动。基于管理我们尤其需要提出来数据信息不管是基于什么平台,基于什么占有人而言都是有价值的资产。美国最早提出来要把数据当成资产进行管理,我们国家和在座企业代表咱们以后对数据资源是不是参照资产管理模式来进行管理。比如说建立清单,进行清单化的登记,做目录,逐级进行申报,把它当做跟企业其他无形资产一样保护和管理,这项工作也是非常重要。

我们设计一些适用于数据开放与共享的基本原则,大体上以不得收费为原则,应当说以收费为例外,考虑到公众接受能力、承受能力一般情况下数据开放与共享尽量不要针对公众进行收费。特殊情况下比如说线下方面进行共享开放可以考虑收费,但是以成本为原则,以产生的数据开放与共享为基础收费。我们设计一些原则可能很多地方不适用,但是这是一种探索,探索目的配合我们产业发展,一起探讨一些基本的制度出来,主要的目的就是配合大数据这个产业发展好,成长好,把它真正做成我们国家战略性新兴产业。

总结

最后还需要指出来有一个矛盾,开放与共享可能与保护有矛盾,那么哪些应该保护?哪些应该开放与共享?涉及国家秘密不能开放共享,涉及个人信息不应当开放共享,开放共享应当以本人同意为原则,处理开放保护共享的关系也是我们将来面临的比较艰巨的问题。这些我们产业需要考量,政府需要考量,行业自律组织,行业企业一块考量共同面对的问题,我们把这些问题提出来主要是为了大家在一个平台上把问题研究好,面向政府我们把建议提供好。我们主要内容就是这些,可能有很多错误,请大家批评指正。

本文为CSDN原创文章,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)

更多精彩内容,请关注直播专题2013中国大数据技术大会(BDTC)  ,新浪微博@CSDN云计算

0
0