精华内容
下载资源
问答
  • 从系统角度看,在未来的几十年内。地理信息将向着数据标准化(interoperable ... 1、Interoperable GIS 目前的地理信息系统大多是基于具体的、相互独立和封闭的平台开发的,它们采用不同的数据格式
    从系统角度看,在未来的几十年内。地理信息将向着数据标准化(interoperable GIS)、数据多维化(3D&4D GIS)系统集成化(componentGIS)、系统智能化(CybeGIS)、平台网络化(WebGIS)和应用社会化(数字地球)的方向发展。
      1、Interoperable GIS
      目前的地理信息系统大多是基于具体的、相互独立和封闭的平台开发的,它们采用不同的数据格式,对地理数据的组织也有很大的差异。这使得在不同软件上开发的系统之间的数据交换存在困难,采用数据转换标准也只能部分地解决问题。另外,不同的应用部门对地理现象有不同的理解。对地理信息有不同的数据定义,这就阻碍了应用系统之间的数据共享,带来了领域间共同协作时信息共享和交流的障碍,限制了地理信息系统处理技术的发展。
      地理数据的继承与共享、地理操作的分布与共享、GIS的社会化和大众化等客观需求,使得尽可能降低采集、处理地理数据的成本以及实现地理数据的共享和互操作成为共识。互操作地理信息系统的出现就是为了解决传统GIS开发方式带来的数据语义表达上不可调和的矛盾,这是一个新的GIS系统集成平台,它实现了在异构地学下多个地理信息系统之间的互相通信和协作,以完成某一特定任务。
      1996年,美国成立了开放地理信息系统联合会(OGC,Open Gis Consortium)旨在利用其提出的开放地理数据互操作规范(OGIS)给出一个分布式访问地理数据和获得地理数据处理能力的软件框架,各软件开发商可以通过实现和使用规范所描述的公共接口模板进行互操作。0GIS规范是互操作GIS研究中的重大进展,它在传统地理信息系统软件和未来的高带宽网络环境下的异构地学处理环境之间架起一座桥梁。目前,0GIS规范初具规模,很多GIS软件开发商也先后声明支持该规范。国内的一些具有战略眼光的GIS软件商也在密切关注着OGIS规范,并已着手开发遵循该规范的基础性GIS软件。
      2、3D&4DGIS
      GIS处理的空间数据,从本质上说是三维连续分布的。但是,目前GIS的主要应用还停留在处理地球表面的数据上,大多数 GIS平台都支持点、线、面三类空间物体,不能很好地支持曲面(体),这主要是因为三维GIS在数据的采集、管理、分析、显示和系统设计等方面要比二维GIS复杂得多。尽管有些GIS软件还采用建立数字高程模型的方法来处理和表达地形的起伏,但涉及到地下和地上的三维的自然和人工景观就显得无能为力,只能把它们先投影到地表,再进行处理,这种方式实际上还是以二维的形式来处理数据的。这种试图用二维系统来描述三维空间的方法,必然存在不能精确地反映、分析和显示三维信息的问题。
      三维G1S目前的研究重点集中在三维数据结构(如数字表面模型、断面、柱状实体等)的设计、优化与实现,以及可视化技术的运用、三维系统的功能和模块设计等方面。
      另一方面,地理信息系统所描述的地理对象往往具有时间属性,即时态。随着时间的推移,地理对象的特征会发生变化,而这种变化可能是很大的,但目前大多数地理信息系统都不能很好地支持地理对象和组合事件时间维的处理。许多GIS应用领域的要求都是基于时间特征的,如区域人口的变化、平均年龄的变化、洪水最高水位的变化等。对这样的应用背景,仅采取作为属性数据库中的一个属性不能很好地解决问题,因此,如何设计并运用四维GIS来描述、处理地理对象的时态特征也是GIS的一个重要研究领域。
      3、Component GIS(ComGIS)
      构件式软件技术成为了当今软件技术的潮流之一,它的出现改变了以往封闭、复杂、难以维护的软件开发模式。 ComGIS便是顺应这一潮流的新一代地理信息系统,是面向对象技术和构件式软件技术在 GIS软件开发中的应用。
      ComGIS的基本思想是把GIS的功能模块划分为多个控件,每个控件完成不同的功能。各个GIS控件之间,以及GIS控件与其它非GIS控件之间,可以方便地通过可视化的软件开发工具集成起来,形成最终的GIS应用。控件如同一堆各式各样的积木,可以分别实现不同的功能(包括GIS和非GIS功能),根据需要把实现各种功能的“积木”搭建起来,就构成地理信息系统基础平台和应用系统。
      组件软件的可编程和可重用的特点在为系统开发商提供有效的系统维护方法的同时,也为GIS最终用户提供了方便的二次开发手段。因此,ComGIS会在很大程度上推动GIS软件的系统集成化和应用大众化,同时也很好地适应了网络技术的发展,是一种 WebGIS的解决方案。
      目前,国内外一些著名的GIS软件厂商都推出了基于COM技术的GIS软件。ComGIS的出现给国内GIS基础软件的开发提供了一个良好的机遇,它打破了GIS勘出软件由几个厂商垄断的格局,开辟了以提供专业组件来打入GIS市场的新途径。
      4、WebGIS
      飞速发展的Internet/Intranet已经成为GIS新的系统平台,利用Internst技术在 web上发布空间数据供用户浏览和使用是GIS发展的必然趋势。从www的任一节点,Internet用户可以浏览WebGIS站点中的空间数据、制作专题图,进行各种空间检索和空间分析,这就是基于www的地理信息系统 (WebGIS)。 WebGIS显然要求支持Internet /Intranet标准,具有分布式应用体系结构,它可以看作是由多主机、多数据库与多台终端通过Internet/Intranet组成的网络。其网络Client端为GIS功能层和数据管理层,用以获得信息和各种应用网络Server端为数据维护层,提供数据信息和系统服务。
      WebGIS系统可以分为四个部分:webGIS浏览器,用以显示空间数据信息并支持Client端的在线处理,如查询和分析等;WebGIS信息代理,用以均衡网络负载,实现空间信息网络化;WebGIS服务器,用以满足浏览器的数据请求,完成后台空间数据库的管理;WebGIS编辑器,提供导入空间数据库数据的功能,形成完整的GIS对象、GIS模型和GIS数据结构的编辑和表现环境。
      目前, WebGIS的实现方法有Java编程法、Active法、公共网络接口法(CGl)、服务器应用程序接口法(ServerAPl)和插件法 (PlUgins)等。国外ESRI、 Maplnfo、 Intergraph、 AutoDesk等公司已经提供了他们各自的WebGIS解决方案,国内的武汉测绘科技大学实现了Internet GeoStar;北京大学李疡教授、许卓群教授和中科院遥感应用研究所杨崇俊研究员各自领导的课题组都在从事WebGIS开发,许多其他的GIS公司也在WebGIS方面做了很多工作。
      WebGIS是GIS走向杜会化和大众化的有效途径,也是GIS发展的必由之路。
      5、CyberGIS
      赛博空间(CyberSpace)目前在媒体中较多出现,它以计算机技术、现代通讯、网络技术、虚拟现实技术的综合应用为基础,构造出一种人们进行社会交往和交流的新型空间,是一个人工世界。科学家预言未来的人们将在赛博空间里的信息海洋中生活,从一个节点到另一个节点,从一个信息源到另一个信息源进行信息交流和信息创造。世界各地的人们在全新的赛博空间中漫游,实现相互之间的通信、贸易和科教活动。
      计算机软件技术发展经历了从软件的模块化到软件的对象化转变的过程,目前,正在进一步向软件的智能化发展。软件智能体 (Agent)是软件设计进一步抽象的结果,是为适应广泛的分布式网络计算环境而发展起来的软件技术方向。麻省理工学院媒体实验室主任贝蒂·梅斯(PatieMaes)认为:软件智能体是“驻留在复杂动态环境中的计算机系统,它们自觉地感知环境并作用于环境,从而实现设定的目标或任务。”
      作为软件智能体的一种,空间智能体处于分布式网络计算环境中,感知并作用于这一环境,以各种不同的形式出现,实现空间数据的智能获取、处理、存储、搜索、表现以及决策支持。这种空间智能体拥有两种非常重要的能力:一是利用空间知识进行推理,二是可进化。
      在赛博空间中以这种空间智能体作为构成模块的GIS系统就是CyberGIS,它自动地接受用户以高级语言描述的指令,利用它能够感知并作用于所处的赛博空间的“本领”。通过与其他空间智能体的交互,为用户找到赛博空间中所需要的信息。
      6、数字地球
      数字地球一词近来风靡全球,从哲学上说,数字地球是对真实地球及其相关现象统一性的数字化的重现与认识。从技术上说,数字地球是一人在全球范围内建立的一个以空间位置为主线,将信息组织起来的复杂系统,也就是全球范围的、以地理位置及其相互关系为基础而组成的信息框架,并在该框架内嵌入我们所能获得的信息的总称。
      数字地球在当前以工农业经济为主体的经济建设中的重大作用已初见端倪,它在农业、林业、水利、地矿、交通、通讯、教育、环境、人口、城市建设等几十个领域都能产生巨大的经济效益和杜会效益,比如农作物监测和估产、土地覆盖物的识别和评价、地籍的管理和规划、灾害的模拟和预报以及监测和评佑等。
      作为新的凝聚全人类梦想的目标,数字地球提供了一种前所未有的认识地球的方式,它将对人类与自然的协调和平衡带来不可估量的推进作用。
      GIS未来的发展主要表现为传统GIS在内容(3D&4DGIS、 CyberGIS)和结构 (Interoperable GIS、 CompGIS、 WGbGIS) 两方面的完善,这两个方面都将统一于数字地球框架下。从另一个角度来看, GIS的发展首先面临着GIS应用领域的具体需求,然后在相关支撑技术的发展和完善下得以实现,而数字地球作为“集大成者”,无疑是GIS最终的发展目标。
      GIS从学术研究走向产业化(总结)
      GIS从学术研究走向产业化。地理信息系统的英文缩写为GIS,它是20世60年代开始迅速发展起来的地理学研究技术,是多种学科交叉的产物。虽然不同领域的学者对GIS的定义并不一致,但广义而言,凡是对空间资料进行各种处理、应用、分析的系统均可称之为地理信息系统,它具备地理信息的获取、存储、检索、处理、分析和显示等功能。
      用户的需要、技术的进步和应用方法理论的提高等因素,深深地影响着GIS的发展,而网络技术日新月异的飞速发展更是大大加速了GIS普及应用的进程,最终将帮助人类实现建立“数字化地球”的梦想。
    展开全文
  • 随着集团公司办公管理转向信息化,如何防止企业机密信息外泄已经成...分析了常见的安全漏洞,提出利用前沿网络技术解决数据泄密问题,指出方便快捷的网络通讯平台和越来越先进的数据获取技术,让数据保护工作更具有挑战性。
  • 海洋地理信息系统课件PPT,包含海洋地理信息系统的背景、发展、应用、前沿、技术等系列内容。
  • 来到了美丽的天府之国- 四川成都,由于大家都提前一天到,先顺便逛了逛2个知名的景点 - 宽窄巷子与锦里,也尽享了当地的精美川菜,与此同时,与DEF三个班的同学们一起开始了四天的中国经济前沿问题的思索与探索之旅...

    首次的移动课堂,来到了美丽的天府之国- 四川成都,由于大家都提前一天到,先顺便逛了逛2个知名的景点 - 宽窄巷子与锦里,也尽享了当地的精美川菜,与此同时,与DEF三个班的同学们一起开始了四天的中国经济前沿问题的思索与探索之旅。


    魏杰老师:

    ---- 创新创业与战略系 清华同方讲席教授 魏杰 教授 

    第一天:新常态下的宏观经济分析

    接下来将花2天时间来解说一下新常态经济下的宏观经济分析,目前中国经济存在的问题:

    第一个问题:中国经济新常态问题;

            - 中国经济新常态 - 中国经济要从粗放走向集约,经济增长速度也不同(高高速变为中高速增长),从中低端结构转向中高档结构;

    第二个问题:经济增长速度变化;

            - 中国经济从中低到中高 - 与美国的关系将从互补关系转为竞争关系,这是美国所不希望看到的,也是南海问题的根源;

    第三个问题:经济体制增长的方式变化,从政府驱动增长到市场驱动增长方式;

            - 政府驱动的增长方式已经为中国过去的经济发展提供了很强的增长模式,但已经到了一个临界点,亟需发展方式上的变革;

    第四个问题:经济增长方式不同,之前是靠生产要素的投入来驱动经济增长;

            - 劳动力(1980)、土地投放(1990)、货币供应增长投入(2004);

            - 目前的增长方式只能是靠创新来驱动整体增长。

    第五个问题:新常态下对外开放策略;

            - 中国长期搭世界经济的便车,世界主要发达国家也不答应了,从单向改为双向开放了,变重视出口为重视进口与出口同样重视;

     

    第一个问题:中国经济新常态问题

    去年的新提法又提到""供给侧改革'',媒体担心是不是又会回到供给学派的理论;

    供给侧改革的关键因子是:政府减税、减少行政干预、降低企业成本;

    里根是美国总统中信奉经济供给侧改革的一位总统;


    新常态经济结构 - 中低端转向中高端结构  - 涉及到"知柱性产业"

        * 传统型制造业,对这个产业的提法是去产能化,但其基础性地位不可替代,逐步转换为一般性产业;*推动中国与国际合作来做;*为企业创造氛围减税;*减少行政干预(政府退出资源配置);*降低企业成本;*推动金融体制改革,降低企业融资成本;*将无效产能转为有效产能;

        * 房地产产业,目前面临的库存是7亿平方米,也需要逐步转换为一般性产业;

    未来的新产业:

          - 战略性新兴产业;

          - 服务业;

          - 现代制造业;

    通俗的提法 -"退二进三",将完成这次的结构调整,成为我们国家的主流;

    资产价格主要体现在房价、股价,经济的平稳需要体现资产价格的平稳;

    房价上涨的2个重要因素:  货币发行量的持续攀升、供求关系方面的问题;

     

    房地产业目前赖以生产的资金链已经由银行转为信托、保险资金等,不会引发系统性的金融风险,因此收紧地产业是可以进行的;

    战略新兴产业中的2个特点:

    1. 市场机会巨大;

    2. 短期内能够突破;


    梳理完毕国内100个行业完毕后可以发现有8个行业属于战略新兴产业:

    1. 新能源产业,新能源与再生能源,目前可再生的能源只有风能、太阳能,清洁能源就范围很广了,包括新能源全部与一些传统能源譬如水能等;水能的投资风向比较小了,只有雅鲁藏布江水系,其他都没有空间(开发完毕了);生物能源空间也不大了;风能与太阳能处在探索投资期,不可持续性并具备间歇性,技术路线在摇摆,成本过高,难于接受;核能有充分的投资条件(第3代解决核安全问题、第4代解决核废料问题)-具备大规模投资条件;

    2. 新材料,石墨烯做电池车可以跑600公里,做手机屏等,如石墨烯的发现获得诺奖;石墨烯是目前材料科学方面非常快速发展的方向,有巨大的投资机会(新材料);

    3. 生命生物工程,农业、医疗等范畴,包括健康检查、器官再造等非常多的方面,出现了人类社会共同关注的热点性机会;

    4. 信息技术及新一代信息技术,芯片方面是核心,核心芯片以及市场价值巨大,非常核心的内容,台湾一家企业最近与大陆打算搞合资但被拒绝了,终端使用方面国内非常做的还不错,譬如P2P、众筹等创新领域;

    5. 节能环保,小技术、大产业,关注在节能环保领域的市场机会;

    6. 新能源汽车,化石能源转变为新能源是关键,美国的特斯拉是关键突破企业,因此汽车企业会非常急,担心会搅乱自己企业的未来(内燃发动机都不需要了);

    7. 智能机器人,譬如智能保安、智能机器人,已经达到可以实用的程度了,非常不错的用户体验;

    8. 高端装备制造,需求非常旺盛,但国内目前突破并不太快,目前的资本进入非常快,正在努力进行技术突破,目前这个方面尚未看到明显的天花板,未来机会还是依然十分巨大;

     

    服务业:需要逐步转为支柱性产业,分为四类:

    1.  消费服务,餐饮与商贸、医疗与健康(看不起病、看病难)、养老消费、儿童消费服务、家政消费服务、交通与信息消费服务;

    2.  商务服务,一是金融服务包括金融、银行、保险服务,二是机构服务譬如会计、律师、审计事务所;三是各类投资咨询服务;四是园区管理公司;

    3.  生产服务,直接为生产过程提供服务譬如是技术服务帮钢厂进行节能环保服务;二是设计服务,譬如服装设计、建筑设计;三是外包服务属于生产服务范畴;

    4.  精神服务,一是影视音乐戏剧,电影电视剧的收入,二是旅游和休闲,三是文化与出版;

    5.  现代制造业,一是飞机制造,二是高铁装备制造,三是核电装备制造,四是特高压装备输电制造,五是现代军工制造;这5个要点是我们十三五的研发关键。



    第二天:新常态的经济增长速度: 

    第二个问题:经济增长速度变化

    提法是进入到中高速增长,确定数字是6.5%-7%,明确就是L型,不会是U型。

    三驾马车之一:出口方面

    目前为了适应国外的出口形势的变化,出现了如下2个方向性变化:

    1. 加大现代制造业产品的出口来逐步取代传统产品的出口;

    2. 不再依赖美国与欧洲市场,目前逐步开发南亚、中亚、加勒比海市场等;

    但初步测算的贡献仅仅为0.5%左右,即便做到最好也是这个数字。

     

    三驾马车之二:投资方面

    3个核心投资:传统制造业投资(严重产能过剩连续7年负增长)、房地产投资(库存高企问题也难以延续)、基础设施投资(2012年之后就放慢了);

    宽松货币政策不能再延续了,货币投放太猛烈了,无论地方与中央政府都无法再延续下去;

    增加3种新的投资:

      1. 战略新兴产业投资;

      2. 服务也投资;

      3. 现代制造业投资;

    但初步测算的贡献为3.0%左右。

     

    三驾马车之三:消费方面

    四大核心消费占全部的70%- 家电消费、汽车消费、房地产消费、青少年消费,四个核心消费都出现了非常大的下滑,青少年消费的趋势是大量海外留学,已经远远超过大学;

    1.交通与信息消费,信息方面的消费也非常成功;

    2. 旅游与休闲消费,去年上升很快,还有很大的增长空间;

    3. 健康与医疗消费,去年也是上升很快,也有非常大的增长空间;

    4.文化与教育消费,去年的上升也是非常快,应该鼓励与推动这个方面的消费,开放与国外名校办学,刺激这个方面的消费,让出国去学的消费留在国内;

    目前可以刺激这4个新的消费,初步测算的贡献为3.0%左右。

     

    今年(2016年)预计GDP总量为70万亿,而货币投放按照13%的增长,基本总量在152万亿之间,货币与GDP的比例还是超过200%,非常高,今年的宏观经济的提法依然是稳健偏宽松,其实会导致居民财富缩水(由于货币超发而引发的)。

    这样回头看一些融资平台的回报率>20%,基本都是出事的前奏。今年的经济学家的站台已经被挨揍了,这个是必然的规律。

     

    第三个问题:新常态的经济体制:

    过去是政府主导的经济体制,控制了5大核心资源,货币资源、自然资源、物质资源、物流资源、信息资源(邮政到电信),因此可以说中国经济就是政府主导的经济发展;

    政府主导变为市场体制为核心的经济发展方式,这个是目前新常态的经济体制变革之关键;

     

    从政府主导的经济发展转为市场经济为主导的模式有四项改革显得非常重要:

    1. 政府体制改革放在首位,简政放权,成立民间组织政府交给民间组织来管理社会(NGU),先放给四类- 向慈善类组织放权、向社会放权、向市场放权、向企业放权;

    2. 金融体制改革是其次的,利率市场化(之前政府决定)、汇率市场化(外汇价格有市场供求关系决定)、人民币的可自由兑换(成为地球上第5种世界货币)、放开民营银行(大规模放开)、放开非银行金融(证券、债券、证券资产化等)、资本市场改革(大力发展资本市场);

    3. 财税体制改革,财政与税收体制的改革,税收制度与预算制度的改革,税收制度- 企业税改革(提高直接税比例、降低间接税比例)、个人所得税(起征点问题目前比较麻烦、转型问题)、房地产税改革(反对与赞成皆有,目前共识是赞成给富人征收);预算制度- 实行全面而且公开透明的预算制度,政府所有的费用都进预算(土地费用、罚没费用等小金库)、实行财权与支付责任相对应;

    4. 民营经济的发展问题,民营经济的发展依然是大问题,民营经济在过去10年中起了非常重要的作用;存在3个大问题:地位问题(如何保证这个地位,5大平等政治、法律、资源配置、竞争关系、市场地位)、保护产权(移民问题就是产权问题的凸显,防止政府侵犯是关键,提了13个要点- 不具备司法权力的政府机构不得查封个人与机构财产、即使是司法机构也不能随便查封必须以立案为标准才可以、司法机构改革独立与行政分离是关键...)、推动混合经济发展的问题(公益性与商业性的区分,公益性由国家来搞,商业性交给民营经济来做,扩大民营经济的进入领域,党组织如何办?


    未来的中国经济 - 生产资料要素譬如土地、资金不再那么挣钱了,但技术与劳动将变得越来越挣钱了。

    经典语录:利益场所找哥们儿等同于在娱乐场所找爱情是一样的;

    目前具备财产查封权限仅仅局限在海关、证监会这2个机构具备查封财产权限;


    第四个问题:新常态经济的增长方式:

    之前主要驱动靠生产要素的投入,譬如劳动力、土地、货币的投入来完成增长,新常态的经济发展驱动主要靠创新来完成与推动;

    目前有3种方式:

    1. 产品与服务的创新,提供新的产品与服务,这样企业才能够生存;

    2. 商业模式的创新,提供新的商业模式,譬如互联网+就是商业模式的创新;

    3. 技术创新,能否产生新的技术来改变人类社会,技术创新是最重要的,推动社会进步的关键与根本;也是最难的创新;

    美国是技术创新做的最好的,主要是因为其良好的技术体制,有四个支撑点:法律体系(知识产权的保护体系)、财力基础、物质基础(试验性经济)、人才基础(最最重要核心);

    推动经济发展是民营企业核心是共建试验性经济,是一种全新的经济形态,非常重要;

    人才基础的5个核心因素:基因差别决定天赋差别、天赋差别决定能力差别、能力差别决定岗位差别、岗位差别决定收支方式的差别、收支方式差别决定收入总量的差别;

    举例教育方面来说,其实教育仅仅是开发功能,能做到什么程度真是主要取决于你个人的天赋,而不是取决于你个人的后天努力,后天努力能够改变点滴,但改变不了全局;

    人才体系的设计还是取决于个人的才华体系等,体制的塑造是整个体系的关键,口号并不能解决问题;

     

    第五个问题:新常态下对外开放策略

    总结核心就是:单向型-》双向型开放策略

    过去的开放是单向型的开放,搭别人的便车,过去是扩大开放,利用外资,基本就是搭别人的便车;

    修改的方向既是我们搭别人的便车、也是别人搭我们的便车,强调资本走出国门,调整比较大,既强调吸引外资,也鼓励大家多往国外投资;大幅度降低进口关税,重点的是资源类、民生类;

    双向性政策,G7的5个参加了亚投行,也希望搭我们的便车,允许他们来获取中国的市场份额;

    一带一路横跨欧亚大陆,将中国纳入到世界经济范围之内,完成了对世界经济的格局定位,有几个方向,云南方向、新疆方向等方面的进入;

    1. 云南-》泰国-》东南亚方向;

    2. 乌鲁木齐-》哈萨克斯坦-》俄罗斯,进展快,但俄罗斯多变,因此会带来后续的隐患;

    3. 喀什-》南-》红海-》中东,问题是遇到土耳其比较麻烦;

    亚投行的第一个项目就是拉动中巴经济带,目前是瓜达尔港-》喀什(3000公里),属于欧亚大陆,高速路已经通了,正在修高铁,确定航线,3个方向都需要有;

     

    "一带"的几层意思:1.欧亚大陆通道带;2. 产业带;3. 城市群体带;

    帮助别人也在发展自己,这个是帮助国外的基础设施发展开发的主要原因;

    "一路"的意思是海上新丝绸之路,仅仅包括南下太平洋,核心投资区是福建,但受台湾未统一的影响,目前还不能大规模发展,加大对福建的投资可以有助于从经济上吸引台湾;

    "一路"方面又加了南下印度洋,一个是斯里兰卡的港口,一个是巴基斯坦的瓜达尔港;2个港口每个至少可以住30万人,目标是非洲,西非、北非有问题,南非、东非还是不错的;

     

    总结上面的5个方面,就是上面5个方面的重要要素,经济新形态就是目前刚刚开始,还在调整与修订之中,还需要结论调整,研究开始于2013年,但重要的成果是2014年年底,目前还在继续发展之中,重视框架,而不是结论。

     

    第三天 同学企业参观


     

     

    第四天  案例分享与分析

     

    互联网时代的物流创新- 施甘图(15D) - 四川省宏图物流股份有限公司

    物流业 - 10.6万亿,是个非常巨大的行业

    工业品是整个物流运输业的主体,占据整个运输的核心内容,但目前呈现小、散、乱、差的形象。

    发展分为4个阶段,2005-2007, 2007-2010, 2010-2012(4+3一体化物流服务)、2013-至今(物流互联网平台)

    拉货宝(互联网电商平台)、专线运输网络()、物流地产建设(物流园的建设),国家的4A级物流企业;

    货滴模式 - 能否成功;请各位同学们指点一下。

     

    高端装备的大数据系统- 鲁方祥(15F) - 成都卡莱博尔的大数据战略

    背景分析 - 公司介绍 -

    发展定位 -  社会价值- 


    展开全文
  • ArcView3.2地理信息系统

    2018-08-23 16:36:20
    ArcView是美国ESRI(环境系统研究所)的GIS产品,ESRI是地理信息系统业界的巨子,其发展基本上代表了国际地理信息系统技术的最前沿水平
  • 对话系统调查:最新进展与新前沿

    千次阅读 2018-08-25 10:35:56
    对话系统调查:最新进展与新前沿 paper:A Survey on Dialogue Systems: Recent Advances and New Frontiers 该paper来自于京东数据团队,论文引用了近124篇论文,是一篇综合全面的介绍对话系统的文章 简介 ...

    对话系统调查:最新进展与新前沿

    paper:A Survey on Dialogue Systems: Recent Advances and New Frontiers

    该paper来自于京东数据团队,论文引用了近124篇论文,是一篇综合全面的介绍对话系统的文章

    简介

    通常将现有的对话系统划分为面向任务和非任务(聊天机器人)的模型

    传统的对话系统处理方法是将对话响应视为管道,使用手动规则来进行状态及空间的表示、意图检测和词槽填充,使部署真实对话系统变得昂贵而耗时,而且还限制了其在其他领域的使用

    DL的方法尝试构建端到端的面向任务的对话系统,这种系统可以扩展传统管道系统中的状态空间表示,并有助于在注释的任务特定语料库之外生成对话

    非任务导向系统的两种主要方法:

    1. 生成方法,如Seq2seq,在会话期间产生适当的响应
    2. 基于检索的方法,学习从存储库中选择当前对话的响应

    屏幕快照 2018-08-25 上午10.11.54.png

    TASK-ORIENTEDDIALOGUESYSTEMS

    Pipeline Methods

    屏幕快照 2018-08-25 上午10.02.13.png

    基于管道的面向任务的对话系统的四个组成部分:

    • 语言理解。 它被称为自然语言理解(NLU),它将用户的语义解析为预定义的语义槽。

      屏幕快照 2018-08-25 上午10.12.47.png

    • 对话状态跟踪器。 它管理每个回合的输入以及对话历史并输出当前的对话状态。

    • 对话政策学习。它根据当前的对话状态学习下一步行动。
    • 自然语言生成(NLG)。 它将选定的动作映射到其表面并生成响应。

    深度信念网络 (Deep Belief Network, DBN) 由 Geoffrey Hinton 在 2006 年提出。它是一种生成模型,通过训练其神经元间的权重,我们可以让整个神经网络按照最大概率来生成训练数据。我们不仅可以使用 DBN 识别特征、分类数据,还可以用它来生成数据。

    End-to-End Methods

    面向任务的对话系统的传统渠道有两个主要局限。一个是信用分配问题,其中最终用户的反馈很难传播到每个上游模块。第二个问题是过程相互依赖。组件的输入取决于另一个组件的输出。在将一个组件调整到新环境或使用新数据重新训练时,需要相应调整所有其他组件以确保全局优化。

    屏幕快照 2018-08-25 上午10.13.56.png

    端到端模型使用单个模块而不是传统管道,并与结构化外部数据库交互。

    屏幕快照 2018-08-25 上午10.14.01.png

    端到端强化学习的方法,在对话管理中联合训练对话状态跟踪和对话策略学习,从而更有力地对系统的动作进行优化。

    NON-TASK-ORIENTEDDIALOGUESYS- TEM

    通常,聊天机器人通过生成方法或基于检索的方法来实现

    Neural Generative Models

    生成响应比在语言之间进行翻译要困难得多。 这很可能是由于广泛的合理反应和帖子与答复之间缺乏词组对齐。

    • Sequence-to-Sequence Models

      屏幕快照 2018-08-25 上午10.15.44.png

    • Dialogue Context

      考虑对话的上下文信息的是构建对话系统的关键所在,它可以使对话保持连贯和增进用户体验。使用层次化的RNN模型,捕捉个体语句的意义,然后将其整合为完整的对话。

      (1)层次RNN通常优于非层次RNN,(2)对于上下文信息,神经网络倾向于产生更长,更有意义和更多样的回复。

    • Response Diversity

      在当前Seq2Seq对话系统中,一个具有挑战性的问题是,它们倾向于产生无关紧要的或不明确的、普通的、几乎没有意义的回复,而这些回复常常涉及到一些诸如“I don’t know”,“I am OK”这样的无意义回复。

      解决这类问题的一个很有效的方法是找到并设置一个更好的目标函数。除此之外,解决此类问题的一个方法是增加模型的复杂度。

      引入随机潜变量来产生更多样化的输出,通过结合潜变量,这些模型的优势在于,在生成时,他们可以通过首先对潜在变量的分配进行采样,然后确定性地解码来从分布中采样响应。

    • Topic and Personality

      明确对话的内在属性是提高对话多样性和保证一致性的另一种方法。在不同的属性中,主题和个性被广泛地进行研究探讨。

    • Outside Knowledge Base

      人类对话与对话系统的一个重要区别在于它是否与现实相结合。 合并外部知识库(KB)是一种很有前途的方法,可以弥合对话系统与人类之间的背景知识差距。

      记忆网络(Memory Network)是一种以知识库处理问题的经典方法。因此,它非常直接的别用于在对话生成中。实际研究表明,所提出的模型能够通过参考知识库中的事实来生成对问题的自然和正确答案。

    • Interactive Dialogue learning

    • 评价

      评估生成的响应的质量是对话响应生成系统的一个重要方面。任务导向的对话系统可以基于人为生成的监督信号进行评估。然而,由于响应的多样性,自动评估非任务导向对话系统产生的响应质量仍然是一个悬而未决的问题。

      自动评估非任务导向的对话系统所产生的响应的质量的方法:

      • 计算 BLEU 值,也就是直接计算 word overlap、ground truth和你生成的回复。由于一句话可能存在多种回复,因此从某些方面来看,BLEU 可能不太适用于对话评测。
      • 计算 embedding的距离,这类方法分三种情况:直接相加求平均、先取绝对值再求平均和贪婪匹配。
      • 衡量多样性,主要取决于 distinct-ngram 的数量和 entropy 值的大小。
      • 进行图灵测试,用 retrieval 的 discriminator 来评价回复生成

    Retrieval-based Methods

    基于检索的方法从候选回复中选择回复。检索方法的关键是消息-回复匹配,匹配算法必须克服消息和回复之间的语义鸿沟。

    • Single-turn Response Matching

      检索聊天机器人的早期研究主要集中在反应选择单轮的谈话,只有消息用于选择一个合适的回复。

      屏幕快照 2018-08-25 上午10.28.38.png

      目前比较新的方法是利用深度卷积神经网络体系结构改进模型,学习消息和响应的表示,或直接学习两个句子的相互作用表示,然后用多层感知器来计算匹配的分数。

    • Multi-turn Response Matching

      近年来,基于检索的多轮会话越来越受到人们的关注,在多轮回答选择中,将当前的消息和先前的话语作为输入。模型选择一个自然的、与整个上下文相关的响应。重要的是要在之前的话语中找出重要的信息,并恰当地模仿话语的关系,以确保谈话的连贯性。

      多轮对话的难点在于不仅要考虑当前的问题,也要考虑前几轮的对话情景。多轮对话的难点主要有两点:

      • 如何明确上下文的关键信息(关键词,关键短语或关键句)
      • 在上下文中如何模拟多轮对话间的关系。

      屏幕快照 2018-08-25 上午10.30.19.png

    Hybrid Methods

    将生成和检索方法结合起来能对系统性能起到显著的提升作用。基于检索的系统通常给出精确但是较为生硬的答案,而基于生成的系统则倾向于给出流畅但却是毫无意义的回答。在集成模型中,被抽取的候选对象和原始消息一起被输入到基于RNN的回复生成器中。这种方法结合了检索和生成模型的优点,这在性能上具备很大的优势。

    讨论

    深度学习能够利用大量的数据,从而模糊了任务导向型对话系统和非任务导向型对话系统之间的界限。值得注意的是,目前的端到端模型仍然远非完美。尽管取得了上述成就,但这些问题仍然具有挑战性。接下来,我们将讨论一些可能的研究方向。

    • Swift Warm-Up

      快速适应。虽然端到端模型越来越引起研究者的重视,我们仍然需要在实际工程中依靠传统的管道(pipeline)方法,特别是在一些新的领域,特定领域对话数据的收集和对话系统的构建是比较困难的。未来的趋势是对话模型有能力从与人的交互中主动去学习。

    • Deep Understanding

      深度理解。现阶段基于神经网络的对话系统极大地依赖于大量标注好的数据,结构化的知识库以及对话语料数据。在某种意义上产生的回复仍然缺乏多样性,有时并没有太多的意义,因此对话系统必须能够更加有效地深度理解语言和真实世界。

    • Privacy Protection

      隐私保护。目前广泛应用的对话系统服务于越来越多的人。很有必要注意到的事实是我们使用的是同一个对话助手。通过互动、理解和推理的学习能力,对话助手可以无意中隐蔽地存储一些较为敏感的信息。因此,在构建更好的对话机制时,保护用户的隐私是非常重要的。

    展开全文
  • 人工智能学术前沿

    千次阅读 2018-08-02 08:23:03
    每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读哪些论文,学习哪些热门技术就成为了 AI 学者和从业人员所头痛的问题。这个栏目就是要...

    https://blog.csdn.net/valada/article/details/79910125

     

    内容简介

    人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读哪些论文,学习哪些热门技术就成为了 AI 学者和从业人员所头痛的问题。这个栏目就是要帮助大家筛选出有意思的论文,解读出论文的核心思想,为精读提供阅读指导。

    本书内容

    深度增强学习前沿算法思想

    2016年 AlphaGo 计算机围棋系统战胜顶尖职业棋手李世石,引起了全世界的广泛关注,人工智能进一步被 推到了风口浪尖。而其中的深度增强学习算法是 AlphaGo 的核心,也是通用人工智能的实现关键。本文将 带领大家了解深度增强学习的前沿算法思想,领略人工智能的核心奥秘。

    前言

    深度增强学习(Deep Reinforcement Learning,DRL)是近两年来深度学习领域迅猛发展起来的一个分支,目的是解决计算机从感知到决策控制的问题,从而实现通用人工智能。以 Google DeepMind 公司为首,基于深度增强学习的算法已经在视频、游戏、围棋、机器人等领域取得了突破性进展。2016年 Google DeepMind 推出的 AlphaGo 围棋系统,使用蒙特卡洛树搜索和深度学习结合的方式使计算机的围棋水平达到甚至超过了顶尖职业棋手的水平,引起了世界性的轰动。AlphaGo 的核心就在于使用了深度增强学习算法,使得计算机能够通过自对弈的方式不断提升棋力。深度增强学习算法由于能够基于深度神经网络实现从感知到决策控制的端到端自学习,具有非常广阔的应用前景,它的发展也将进一步推动人工智能的革命。

    深度增强学习与通用人工智能

    当前深度学习已经在计算机视觉、语音识别、自然语言理解等领域取得了突破,相关技术也已经逐渐成熟并落地进入到我们的生活当中。然而,这些领域研究的问题都只是为了让计算机能够感知和理解这个世界。以此同时,决策控制才是人工智能领域要解决的核心问题。计算机视觉等感知问题要求输入感知信息到计算机,计算机能够理解,而决策控制问题则要求计算机能够根据感知信息进行判断思考,输出正确的行为。要使计算机能够很好地决策控制,要求计算机具备一定的“思考”能力,使计算机能够通过学习来掌握解决各种问题的能力,而这正是通用人工智能(Artificial General Intelligence,AGI)(即强人工智能)的研究目标。通用人工智能是要创造出一种无需人工编程自己学会解决各种问题的智能体,最终目标是实现类人级别甚至超人级别的智能。

    通用人工智能的基本框架即是增强学习(Reinforcement Learning,RL)的框架,如图1所示。

    enter image description here图1 通用人工智能基本框架

    智能体的行为都可以归结为与世界的交互。智能体观察这个世界,然后根据观察及自身的状态输出动作,这个世界会因此而发生改变,从而形成回馈返回给智能体。所以核心问题就是如何构建出这样一个能够与世界交互的智能体。深度增强学习将深度学习(Deep Learning)和增强学习(Reinforcement Learning)结合起来,深度学习用来提供学习的机制,而增强学习为深度学习提供学习的目标。这使得深度增强学习具备构建出复杂智能体的潜力,也因此,AlphaGo 的第一作者 David Silver 认为深度增强学习等价于通用人工智能 DRL=DL+RL=Universal AI。

    深度增强学习的 Actor-Critic 框架

    目前深度增强学习的算法都可以包含在 Actor-Critic 框架下,如图2所示。

    enter image description here图2 Actor-Critic框架

    把深度增强学习的算法认为是智能体的大脑,那么这个大脑包含了两个部分:Actor 行动模块和 Critic 评判模块。其中 Actor 行动模块是大脑的执行机构,输入外部的状态 s,然后输出动作 a。而 Critic 评判模块则可认为是大脑的价值观,根据历史信息及回馈 r 进行自我调整,然后影响整个 Actor 行动模块。这种 Actor-Critic 的方法非常类似于人类自身的行为方式。我们人类也是在自身价值观和本能的指导下进行行为,并且价值观受经验的影响不断改变。在 Actor-Critic 框架下,Google DeepMind 相继提出了 DQN,A3C 和 UNREAL 等深度增强学习算法,其中 UNREAL 是目前最好的深度增强学习算法。下面我们将介绍这三个算法的基本思想。

    DQN(Deep Q Network)算法

    DQN 是 Google DeepMind 于2013年提出的第一个深度增强学习算法,并在2015年进一步完善,发表在2015年的《Nature》上。DeepMind 将 DQN 应用在计算机玩 Atari 游戏上,不同于以往的做法,仅使用视频信息作为输入,和人类玩游戏一样。在这种情况下,基于 DQN 的程序在多种 Atari 游戏上取得了超越人类水平的成绩。这是深度增强学习概念的第一次提出,并由此开始快速发展。

    DQN 算法面向相对简单的离散输出,即输出的动作仅有少数有限的个数。在这种情况下,DQN 算法在 Actor-Critic 框架下仅使用 Critic 评判模块,而没有使用 Actor 行动模块,因为使用 Critic 评判模块即可以选择并执行最优的动作,如图3所示。

    enter image description here图3 DQN 基本结构

    在 DQN 中,用一个价值网络(Value Network)来表示 Critic 评判模块,价值网络输出 Q(s,a),即状态 s 和动作 a 下的价值。基于价值网络,我们可以遍历某个状态 s 下各种动作的价值,然后选择价值最大的一个动作输出。所以,主要问题是如何通过深度学习的随机梯度下降方法来更新价值网络。为了使用梯度下降方法,我们必须为价值网络构造一个损失函数。由于价值网络输出的是 Q 值,因此如果能够构造出一个目标 Q 值,就能够通过平方差 MSE 的方式来得到损失函数。但对于价值网络来说,输入的信息仅有状态 s,动作 a 及回馈 r。因此,如何计算出目标 Q 值是 DQN 算法的关键,而这正是增强学习能够解决的问题。基于增强学习的 Bellman 公式,我们能够基于输入信息特别是回馈 r 构造出目标 Q 值,从而得到损失函数,对价值网络进行更新。

    enter image description here图4 UNREAL 算法框图

    在实际使用中,价值网络可以根据具体的问题构造不同的网络形式。比如 Atari 有些输入的是图像信息,就可以构造一个卷积神经网络(Convolutional Neural Network,CNN)来作为价值网络。为了增加对历史信息的记忆,还可以在 CNN 之后加上 LSTM 长短记忆模型。在 DQN 训练的时候,先采集历史的输入输出信息作为样本放在经验池(Replay Memory)里面,然后通过随机采样的方式采样多个样本进行 minibatch 的随机梯度下降训练。

    DQN 算法作为第一个深度增强学习算法,仅使用价值网络,训练效率较低,需要大量的时间训练,并且只能面向低维的离散控制问题,通用性有限。但由于 DQN 算法第一次成功结合了深度学习和增强学习,解决了高维数据输入问题,并且在 Atari 游戏上取得突破,具有开创性的意义。

    A3C(Asynchronous Advantage Actor Critic)算法

    A3C 算法是2015年 DeepMind 提出的相比 DQN 更好更通用的一个深度增强学习算法。A3C 算法完全使用了 Actor-Critic 框架,并且引入了异步训练的思想,在提升性能的同时也大大加快了训练速度。A3C 算法的基本思想,即 Actor-Critic 的基本思想,是对输出的动作进行好坏评估,如果动作被认为是好的,那么就调整行动网络(Actor Network)使该动作出现的可能性增加。反之如果动作被认为是坏的,则使该动作出现的可能性减少。通过反复的训练,不断调整行动网络找到最优的动作。AlphaGo 的自我学习也是基于这样的思想。

    基于 Actor-Critic 的基本思想,Critic 评判模块的价值网络(Value Network)可以采用 DQN 的方法进行更新,那么如何构造行动网络的损失函数,实现对网络的训练是算法的关键。一般行动网络的输出有两种方式:一种是概率的方式,即输出某一个动作的概率;另一种是确定性的方式,即输出具体的某一个动作。A3C 采用的是概率输出的方式。因此,我们从 Critic 评判模块,即价值网络中得到对动作的好坏评价,然后用输出动作的对数似然值(Log Likelihood)乘以动作的评价,作为行动网络的损失函数。行动网络的目标是最大化这个损失函数,即如果动作评价为正,就增加其概率,反之减少,符合 Actor-Critic 的基本思想。有了行动网络的损失函数,也就可以通过随机梯度下降的方式进行参数的更新。

    为了使算法取得更好的效果,如何准确地评价动作的好坏也是算法的关键。A3C 在动作价值Q的基础上,使用优势 A(Advantage)作为动作的评价。优势 A 是指动作 a 在状态 s 下相对其他动作的优势。假设状态 s 的价值是 V,那么 A=Q-V。这里的动作价值 Q 是指状态 s 下 a 的价值,与 V 的含义不同。直观上看,采用优势 A 来评估动作更为准确。举个例子来说,假设在状态 s 下,动作1的 Q 值是3,动作2的 Q 值是1,状态s的价值V是2。如果使用 Q 作为动作的评价,那么动作1和2的出现概率都会增加,但是实际上我们知道唯一要增加出现概率的是动作1。这时如果采用优势 A,我们可以计算出动作1的优势是1,动作2的优势是-1。基于优势A来更新网络,动作1的出现概率增加,动作2的出现概率减少,更符合我们的目标。因此,A3C 算法调整了 Critic 评判模块的价值网络,让其输出 V 值,然后使用多步的历史信息来计算动作的 Q 值,从而得到优势 A,进而计算出损失函数,对行动网络进行更新。

    A3C 算法为了提升训练速度还采用异步训练的思想,即同时启动多个训练环境,同时进行采样,并直接使用采集的样本进行训练。相比 DQN 算法,A3C 算法不需要使用经验池来存储历史样本,节约了存储空间,并且采用异步训练,大大加倍了数据的采样速度,也因此提升了训练速度。与此同时,采用多个不同训练环境采集样本,样本的分布更加均匀,更有利于神经网络的训练。

    A3C 算法在以上多个环节上做出了改进,使得其在 Atari 游戏上的平均成绩是 DQN 算法的4倍,取得了巨大的提升,并且训练速度也成倍的增加。因此,A3C 算法取代了 DQN 成为了更好的深度增强学习算法。

    UNREAL(UNsupervised REinforcement and Auxiliary Learning)算法

    UNREAL 算法是2016年11月 DeepMind 提出的最新深度增强学习算法,在A3C算法的基础上对性能和速度进行进一步提升,在 Atari 游戏上取得了人类水平8.8倍的成绩,并且在第一视角的3D迷宫环境 Labyrinth 上也达到了87%的人类水平,成为当前最好的深度增强学习算法。

    A3C 算法充分使用了 Actor-Critic 框架,是一套完善的算法,因此,我们很难通过改变算法框架的方式来对算法做出改进。UNREAL 算法在 A3C 算法的基础上,另辟蹊径,通过在训练 A3C 的同时,训练多个辅助任务来改进算法。UNREAL 算法的基本思想来源于我们人类的学习方式。人要完成一个任务,往往通过完成其他多种辅助任务来实现。比如说我们要收集邮票,可以自己去买,也可以让朋友帮忙获取,或者和其他人交换的方式得到。UNREAL 算法通过设置多个辅助任务,同时训练同一个 A3C 网络,从而加快学习的速度,并进一步提升性能。

    在 UNREAL 算法中,包含了两类辅助任务:第一种是控制任务,包括像素控制和隐藏层激活控制。像素控制是指控制输入图像的变化,使得图像的变化最大。因为图像变化大往往说明智能体在执行重要的环节,通过控制图像的变化能够改善动作的选择。隐藏层激活控制则是控制隐藏层神经元的激活数量,目的是使其激活量越多越好。这类似于人类大脑细胞的开发,神经元使用得越多,可能越聪明,也因此能够做出更好的选择。另一种辅助任务是回馈预测任务。因为在很多场景下,回馈 r 并不是每时每刻都能获取的(比如在 Labyrinth 中吃到苹果才能得1分),所以让神经网络能够预测回馈值会使其具有更好的表达能力。在 UNREAL 算法中,使用历史连续多帧的图像输入来预测下一步的回馈值作为训练目标。除了以上两种回馈预测任务外,UNREAL 算法还使用历史信息额外增加了价值迭代任务,即 DQN 的更新方法,进一步提升算法的训练速度。

    UNREAL 算法本质上是通过训练多个面向同一个最终目标的任务来提升行动网络的表达能力和水平,符合人类的学习方式。值得注意的是,UNREAL 虽然增加了训练任务,但并没有通过其他途径获取别的样本,是在保持原有样本数据不变的情况下对算法进行提升,这使得 UNREAL 算法被认为是一种无监督学习的方法。基于 UNREAL 算法的思想,可以根据不同任务的特点针对性地设计辅助任务,来改进算法。

    小结

    深度增强学习经过近两年的发展,在算法层面上取得了越来越好的效果。从 DQN,A3C 到 UNREAL,精妙的算法设计无不闪耀着人类智慧的光芒。在未来,除了算法本身的改进,深度增强学习作为能够解决从感知到决策控制的通用型学习算法,将能够在现实生活中的各种领域得到广泛的应用。AlphaGo 的成功只是通用人工智能爆发的前夜。

    NIPS 2016精选论文

    人工智能和机器学习的顶级会议 Neural Information Processing Systems 2016 (NIPS 2016)12月已经在西班牙的巴塞罗那圆满举行。因为 NIPS 的论文涵盖主题非常广泛,所以一般读者很难从浩如烟海的文献中即刻抓取到有用信息。同时,读到有价值的信息需要专业知识和不少时间投入。在本文中,继续上一期,笔者精选出5篇有意思的文章,为读者解惑。

    Can Active Memory Replace Attention

    概要:Active Memory 能够替代 Attention 吗?本文想要探讨这样的话题。不过,从结果看,答案是,不能。

    这篇文章来自 Google Brain 的 Lukasz Kaiser 和 Samy Bengio。文章的主旨是想使用一种叫做 Active Memory 的机制来替代 Attention 机制。文章通过扩展第一作者在 ICLR 2016提出的一个 Neural-GPU 模型,使其拥有 Active Memory 的能力并且叫做 Extended-Neural GPU,通过机器翻译来展现该机制可与 Attention 匹敌。不过,读者们需要注意,文中提出的 Active Memory 机制主要基于 Convolution Operator,是否能够扩展到其他模型,还需要进一步讨论。

    文章最有价值的部分在于 Attention 机制以及 Active Memory 机制的讨论。从模型的发展角度来说,文章指出,Attention 机制的提出是要解决使用 RNN 来进行机器翻译时,因为一个固定维度的 Hidden Vector,导致翻译效果下降,甚至在比较长的语句中翻译效果进一步恶化。本质来说,Attention 机制就是把这些中间结果组合起来,也就不仅仅是一个固定长度的隐含状态,而是一个所谓的记忆(Memory)Tensor,在解码的每一步,一个基于过去 Memory 的 Distribution 会被计算,然后解码器(Decoder)的输入是过去这些 Memory 的一个加权平均。因此,在这样的机制下,解码器可以对过去不同的细节进行关注,从而产生需要的字符。这套 Attention 机制已经被认为在机器翻译之外,如图形模型中有较好效果。文章认为 Attention 的局限在于其定义本身,也就是 Attention 定义中的 Softmax。这个 Softmax 还是想关注过去 Memory 中的某一个单元。

    文章认为,这个局限使得在一些任务中,Attention 机制完全无法完成相应的学习功能。是否能够打破这个局限?文章认为 Acitve Memory 机制可以打破 Attention 的局限。简单说来,Active Memory 就是在解码这个步骤依赖并且访问所有的Memory,每一步解码的 Memory 都不一样。当然,这个机制在之前的 Neural-GPU 中已经提出来,并且在那篇文章中展现出了算法任务(Algorithmic Tasks)上的良好性能。但在传统的机器翻译任务上,这样的模型效果并不理想。这篇文章就是想通过对模型进行小改进从而达到在机器翻译任务上的进步。在这里我们不复述模型的改进,因为感觉这个改进并不具备普遍适用性而是为了增强模型性能所做的 Hack。不过,文章指出,作者的思路和 Grid LSTM 比较相似,有兴趣的读者可以去参考。在经历了一系列 Hack 之后,新提出来的 Extended Neural-GPU 在机器翻译这个任务上,与 GRU+Attention 有了相似的模型性能。对于 Attention 机制有兴趣的读者,可以精读这篇文章。

    Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm

    摘要:Variational Inference 的难点是没有通用的算法模式,这篇文章也许是一个启发。

    众所周知,Bayesian Inference 的难点是如何对 Posterior Distribution 进行计算。在很长一段时间内 Markov chain Monte Carlo (MCMC)是解决这类问题的有效工具。然而,MCMC 的缺点是速度慢,并且很难判断是否已经 Converge。所以,这也是很多时候 Variational Inference(VI)显得要更加吸引人的原因,因为 VI 常常是一个 Deterministic 的算法,并且很多优化(Optimization)领域的工具都可以拿来使用。VI 的问题是,对于不同的 Model,一般需要进行单独推导,并没有统一的一般形式的算法来解模型。如何提出一个一般意义的算法对 VI 进行优化,是最近 VI 领域的热门研究课题。这篇文章也是对该领域推动的一次尝试。文章提出的算法本身比较简单,具有下面这几个特点:

    • 算法初始时从一个简单的 Distribution 抽出一堆 Particles(也可以认为是Samples)。

    • 然后进行多次迭代,每次迭代时所有 Particles 都朝着减小 KL Divergence 的方向前进,这一步用作者的观点说就是类似 Gradient Descent 的一种做法。

    • 最后算法返回一堆 Particles,它们已经可以代表 Posterior Distribution 了。

    这个算法最关键的是第二步如何进行,简单说来,涉及两个部分:

    • 把 Particles 移动到 Posterior Distribution 的高 Probability 区域,这样能让 Particles 具有代表性。

    • 同时,也不让这些 Particles 都聚拢在一起(Collapsed),也就是说,依然希望这些 Particles 具有多样性代表整个 Posterior Distribution 的各个部分。

    其实文章的难点和深涩的地方是解释为什么这个流程是正确的算法,里面涉及到所谓的 Stein Identity 以及 Kernelized Stein Discrenpancy。这里就不复述了,有兴趣的读者可以去留意原文。文章的实验部分比较简单,先对一个一维的 Gaussian Distribution 的情况做了 Validation,确保可以运行。紧接着在 Bayesian Logistic Regression 和 Bayesian Neural Network 上面做了实验,对比了一系列方法和数据集。总体看,提出的算法有两大优势:第一,准确度明显高于其他算法,第二,速度大幅增加。对于这类新算法文章,可能还是希望能够看到应用到更复杂的模型上以及更大的数据上。

    Coresets for Scalable Bayesian Logistic Regression

    摘要:在大规模机器学习的浪潮中,主要思路往往是改进算法本身来适应数据的增大。这篇文章则提出一个新颖的思路,来构建具有代表性的数据集,从而来扩展算法的规模。

    这篇文章出自麻省理工(MIT)Tamara Broderick 教授的实验室。Tamara 之前是 Michael Jordan 的学生,主要研究 Bayesian Nonparametric 模型。文章思路比较新颖,在传统的把基于单机的 Bayesian inference 算法推广到大数据的过程中,一般的思路往往是改进算法本身。比如文章提到了 Streaming Variational Inference 或者是 Distributed MCMC 等算法,都是要在经典的算法基础上进行更改,适应大数据的应用场景。对于这样的一般思路,文章认为这些改进后的算法往往缺乏理论的严格证明,并且也对算法的质量并没有保证。

    这篇文章的观察是基于这么一个假设,那就是在大数据的情况下,数据本身往往是冗余的。比如,在一个新闻事件爆发的时候,很多对于这个事件的报道都是相似的。这篇文章的根本思路是,尝试改变数据集,而不是算法本身,来达到算法的大规模应用。文章采取了一个叫 Coreset 的概念,也就是一个加权的数据子集,用来逼近全集数据。Coreset 这一概念已经在诸如 K-means 或者 PCA 等算法中得到研究,之前并没有被应用到 Bayesian 的情况下。这篇本文是用 Bayesian Logistic Regression 来做例子。那么,这个 Coreset 如何构建呢?文章提出了这样的算法:

    • 首先要基于一个 K-Clustering(后来的实验中采用了 K-means);

    • 然后计算一个叫做 Sensitivity 的值,用来衡量每一个数据点是否冗余,这个值越大,就越不冗余;

    • 把所有的 Sensitivity 重新 Normalize,并且从 Normalize 之后的 Weight 里面,Sample 出一组数据,最后留下非零 Weight 的数据集。

    文章对这个 Coreset 进行了严格的证明,这里就不复述了。文章的实验在生成的数据集以及真实数据集中都进行了对比。在好几个数据集上,采用 Coreset 的算法能够在几千到几万这个数量级上很快达到普通算法在全集上的效果。不过,文章也留下了几个非常根本的疑问,比如这个 Coreset 看上去是为 Logistic Regression 特殊构造的,不知道对于其他的算法该如何构造。另外,算法本身需要对数据进行 K-Clustering,这对于大数据来说可能已经很难达到,于是整体的算法效率还有待考验。不过这些不掩盖这篇文章的新颖思路。

    Data Programming: Creating Large Training Sets, Quickly

    摘要:在很多机器学习的任务中,构建一个有标注的数据集可能是最消耗人工的步骤。这篇文章提出了一个叫 Data Programming 的理论来尝试解决这个问题。

    这篇文章来自斯坦福大学的一批学者。他们想要解决这么一个问题,那就是在很多机器学习的任务中,构建一个有标注的数据集可能是最消耗人工的步骤。如何能够有效降低这步的时间和投入的精力,成了这篇文章的主题。

    文章提出了一个叫 Data Programming 的概念。简单说来,在这个框架下,用户提供一组 Heuristic 标注函数(Labeling Functions)。这些标注函数可以互相抵触,可以重复,也可以依赖外部的 Knowledge Base 等。然后,文章提出的框架则学习各个标注函数之间的 Correlation 关系,从而可以利用多种标注函数,达到监督学习(Supervised Learning)的效果。文章采用 Logistic Regression 在 Binary 的分类问题上作为一个例子。每一个 Heuristic 标注函数拥有两个参数,一个是控制有多大可能性标注一个对象,而另一个则是控制标注对象的准确度。于是学习这两个参数就成为目标函数的主要部分。在所有的标注函数都是独立的情况下,文章采用了最大似然(Maximum Likelihood Estimation)的方法估计到这两个参数的取值。

    在已经得到了这两个估计的情况下,作者们进一步利用原本的 Logistic Regression 来学习一个分类器。也就是说,整个框架分为两个部分。当然,独立的标注函数作用还是有限。文章提出了一个类似 Markov Random Field 的方式来处理各个标注函数之间的相互关系。在数据实验中,基于 Data Programming 的方法不管是在人工 Feature 还是采取 LSTM 自动学习的 Feature 中都有很显著的效果提升。这篇文章非常适合需要对 Crowdsourcing 进行学习和研究的学者。

    Residual Networks Behave Like Ensembles of Relatively Shallow Network

    摘要:残差网为什么能够训练深层次的网络?这篇文章从集成学习(Ensemble Learning)的角度入手,给残差网新的解释。

    这篇文章来自于康奈尔大学的学者,他们在这篇文章里,主要是想从全新的,也就是集成学习(Ensemble Learning)的角度来解释残差网的成功。这篇文章的贡献主要有以下三个方面:

    • 文章展示了残差网其实可以被看做是很多路径(Path)的集合,而不仅仅是一个很深的网络。

    • 文章通过研究发现,这些路径并不互相紧密拟合。同时,这些路径表现出了集成学习的效果。

    • 作者同时也研究了残差网的 Gradient 问题,发现仅仅是短路径对 Gradient 的传播起了作用,而更深的路径在训练模型时并不是必须的。

    文章的核心其实是把残差网的所有层级之间的路径全部展开(Unravel),从而可以展示出残差网其实是很多变元(Variable)的路径,也就是由路径长短不一的网络群组成。在这样的启示下,我们很容易发现,即便删除残差网的一些节点,这仅仅会影响非常多路径中的一部分,但对整体路径群并没有特别大的影响。从这一点来说,残差网和传统的 Feed-Forward 网络有很大的不同。作者做了几组实验来展示这种变元路径对于残差网的影响。首先,删除残差网中的 Residual Module,并且比较了相同的行为在 VGG 网络中的情况。效果是残差网的性能并没有得到根本的变化,而 VGG 的性能则大打折扣。进一步,作者删除了残差网中的多个Module,观察到误差进一步上升,从而发现模块的个数和性能的相关性,得出残差网有集成学习效应的结论。

    另外一个实验,则是作者任意更换模块的顺序,结果惊人,残差网居然对于部分的模块交换有鲁棒(Robust)效果。文章最后通过一些小的模拟实验,验证了关于 Gradient 的假设,并且展示了残差网中真正起作用的路径其实都相对较短。文章应该是打开了很多未来研究的话题,比如残差网如果并没有真正解决深度网络的“深”(Deep)的问题,而是多样性的路径带来了残差网性能上的提升,那么深度网络究竟需不需要很深的结构呢?能不能训练很多结构迥异的小网络,或者是动态生成这些小网络,然后依靠集成学习来达到残差网的效果呢?这些都是未来可以探讨的课题。

    WSDM 2017精选论文

    ICLR 2017精选论文

    WWW 2017精选论文

    AISTATS 2017精选论文

    ACL 2017精选论文

    阅读全文: http://gitbook.cn/gitchat/geekbook/5a5c5e6a2be8c361148234e6

    展开全文
  • 前沿 | 社区问答系统及相关技术

    千次阅读 2016-01-24 19:56:14
    通过使用社区问答系统,人们不但可以发布问题进行提问以满足自己的信息需求,而且还可以回答其他用户提问的问题来分享自己的知识,此外用户还可以对系统所积累的问题答案库进行检索,以快速地满足自己的信
  • 地理信息科学前沿-[热词]

    千次阅读 2014-06-19 11:53:24
    1.LBS:基于位置的服务,它是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部定位方式(如GPS)获取移动终端用户的位置信息(地理坐标,或大地坐标),在地理信息系统(外语缩写:GIS、外语全称:...
  • 计算机视觉前沿技术探索

    千次阅读 2018-11-24 09:10:29
    计算机视觉前沿技术探索   摘要:计算机视觉与最前沿技术如何结合? 计算机视觉软件正在改变行业,使用户的生活变得不仅更容易,而且更有趣。作为一个有潜力的领域,计算机视觉已经获得了大量的投资。北美计算机...
  • 在庆祝Science创刊125周年之际,Science公布了125个最具挑战性的科学问题。了解前沿科学研究方向,对你的成长或许有所帮助。简单归纳统计这125个问题,其中涉...
  • 摘 要 在论文的前两部分,作者对信息管理与信息系统专业学科归属作了梳理,并通过对中国六所大学的信息管理与信息系统专业(以下简称信管专业)的个案研究来展现信管专业的来龙去脉。与此同时作者也根据对收集资料的...
  • 信息管理与信息系统

    万次阅读 多人点赞 2009-06-26 18:15:00
    信息管理与信息系统1.什么是信息管理与信息系统?信息管理 :是指在整个管理过程中,人们收集、加工和输入、输出的信息的总称。信息管理的过程包括信息收集、信息传输、信息加工和信息储存。信息收集就是对原始信息...
  • 前端技术前沿10

    千次阅读 2019-05-26 11:50:55
    允许用户从NPM服务器下载别人编写的第三方包到本地使用。 允许用户从NPM服务器下载并安装别人编写的命令行程序到本地...如果是 Window 系统使用以下命令即可: npm install npm -g 全局安装与本地安装 npm instal...
  • 随着信息时代的来临,基于PDF格式的学术论文与期刊文献的数量猛然增长,给科研人员提供了丰富的参考资料的同时,也迫使科研人员将更多的时间和精力投入到对科技文献的检索与阅读中。如何对文献进行有效筛选与管理...
  • 计算机前沿技术介绍

    万次阅读 多人点赞 2020-05-02 18:58:11
    简要的说明了一些当今,热门、前沿技术,只是大致介绍了一下,想详细了解的,请自行查阅。
  • 【地理信息系统GIS专业的10个发展方向:】  职业生涯规划中的路径选择,首先要知道自己在哪儿,要去哪儿——这是给自己的所在地和目的地定位。所在地的定位没什么问题,能考上大学的人,差不多都对自己的知识和...
  • 软考高项-信息系统项目管理师-精华笔记

    千次阅读 多人点赞 2020-04-16 22:52:57
    【人生苦短,只看精华】软考信息系统项目管理师教程共923页,分28章,1264000字。本文取其精华,梳理归纳,分为2个部分介绍重点知识:第1部分:信息系统;第2部分:项目管理。开始画笔记⬇⬇⬇⬇⬇⬇⬇
  • 人工智能下一个前沿:可解释性

    千次阅读 2019-07-02 12:50:35
    十亿美元的问题 50多年来,计算机已成为我们生活的一部分。他们开始时只是大公司使用的这些巨大的装置,他们最新的迭代是我们口袋里的小巧智能手机。 在我们与计算机交互的整个历史中,我们主要使用它们作为扩展...
  • 北上广深机场目前是国内旅客流量最为繁忙的机场,其机场客货流量、航站楼面积、登机口数量、停机位资源均...这几大繁忙机场的旅客服务做得怎么样,其中的航班信息显示系统是一个什么样的现状,我们有必要详细了解一下。
  • 智能制造是一个大概念,是一个不断演进的大系统,是新一代信息技术与先进制造技术的深度融合,贯穿于产品,制造,服务全生命周期的各个环节及相应系统的优化集成。
  • 数据库新技术前沿总结

    万次阅读 多人点赞 2018-12-31 08:14:26
    来源:《数据库系统概论》、中国知网 1.数据库技术发展进程来看,特点: (1)面向对象的方法和技术对数据库发展的影响最为深远数据库研究人员借鉴和吸收了面向对象的方法和技术,提出了面向对象数据模型(简称...
  • 超声前沿研究

    千次阅读 2017-08-26 19:17:35
    通过用超声波评估患者身体的四个区域,提供了有价值的信息,可以帮助确定患者是否注定观察,CT扫描或手术室。不幸的是,虽然便携式超声波系统的成本持续下降,但是所需的培训仍然是一个主要的障碍。研究表明,FAST在...
  • 信息管理与信息系统专业的来龙去脉-基于六所大学个案的分析(转载) 2004年 12月24日 内容摘要 在论文的前两部分,作者对信息管理与信息系统专业学科归属作了梳理,并通过对中国六所大学的信息管理与信息系统专业...
  • WebGIS(万维网地理信息系统)

    千次阅读 2005-07-20 10:07:00
    一、万维网地理信息系统定义与特点万维网地理信息系统是在Internet或Intranet网络环境下的一种兼容、存储、处理、分析和显示与应用地理信息的计算机信息系统[1]。地理信息是描述地球表面的空间位置和空间关系的信息...
  • 在物流信息系统中,物联网主要应用于哪些领域 https://blog.csdn.net/zhinengxuexi/article/details/86736770 在物流信息系统中,物联网主要应用于以下4大领域: (1)基于RFID等技能的多源物流信息采集与可追溯...
  • 学校课程里安排有前沿技术讲座这门课,而这次讲座的有四次,分别是——群智感知、网络安全、区块链和智能物联网。讲座后要求写个感悟,而我也借着这次机会,谈谈我对于此次讲座的感悟以及关于互联网时代下繁如星辰的...
  • 受疫情影响,全国大学生电子设计竞赛组织委员会决定, 2020年全国大学生电子设计竞赛——信息科技前沿专题邀请赛(瑞萨杯)竞赛时间安排调整如下。 一. 竞赛时间安排 竞赛时间:2020年6月15日-9月1日。 受邀学校...
  • 2019计算机视觉-包揽所有前沿论文源码

    万次阅读 多人点赞 2019-10-23 11:36:33
    大家是否遇到过这种情况,就是在工作或者学习的时候,想去某些方向的网络,但是呢,尴尬的是,老旧的网络里不想要,前沿的网络又不知道有哪些。为了解决大家的这个困扰,本人收集了2019年大部分前沿的网络相关链接,...
  • 除了决策预测,如何实现三维场景下的路径规划、基于迁移学习的强化学习、对复杂控制系统(如无人船、无人车)的控制都是需要解决的问题。 以上的内容都属于算法类型,与每个算法相对应的是后台的硬件或平台支撑。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 59,984
精华内容 23,993
关键字:

信息系统前沿问题