精华内容
下载资源
问答
  • 2021-04-28 10:44:46

    知识图谱领域顶级学术会议列表

    会议简称 会议全称

    • ACL Association of Computational Linguistics

    • EMNLP Empirical Methods in Natural Language Processing

    • WWW International World Wide Web Conference

    • ISWC International Semantic Web Conference

    • IJCAI International Joint Conference on Artificial Intelligence

    • AAAI National Conference of the American Association for Artificial Intelligence

    • COLING International Conference on Computational Linguistics

    • KR International Conference on Principles of KR & Reasoning

    • KDD ACM International Conference on Knowledge Discovery and Data Mining

    • CIKM ACM International Conference on Information and Knowledge
      Management

    更多相关内容
  • 知识图谱尤其是垂直知识图谱技术是目前学术界和工业界研究的热点,在人工智能领域具有广泛的应用。为了充分展现国内在垂直知识图谱领域研究的现状,以垂直领域知识图谱为研究对象,对其发展现状和趋势进行综 述。
  • 数据和知识是新一代信息技术与智能制造深度融合的基础。然而,当前产品设计、制造、装配和服务等过程中,数据及知识的存储大多以传统关系型数据库为基础,这导致了数据及知识的冗余性和搜索及推理的低效性。
  • 基于知识图谱的国内环境监测领域学术研究分析.pdf
  • 随着人们对掌握事物全貌和关联性分析需求的日渐增长,AI技术对于“让机器形成认知能力”的不懈追求和知识工程相关技术的日趋完善,作为AI技术之一的知识图谱学术界与工业界掀起了一股研究与应用的热潮。...
  • 知识图谱作为机器认知智能实现的基础之—,是人工智能的重要组成部分,有助千实现自动化和智能化获取、 挖掘和应用知识, 获得了产业界和学术界的广泛关注。 知识图谱是以结构化的形式描述客观世界中的概念、 实体...
  • 把握中国煤矿安全领域的研究发展脉络,以CNKI期刊数据库2007—2016年共3 655篇相关核心文献为样本,基于统计分析和文献计量的方法,利用CiteSpace可视化分析软件绘制科学知识图谱并挖掘其中包含的隐性知识。结果表明,该...
  • 提供了从流数据构建特定领域知识图所需的完整功能套件。 这包括 自然语言处理(NLP), 实体和关系映射, 使用链接预测的置信度估计。 使用频繁图挖掘的规则学习/趋势发现 使用图搜索进行问答 出版物和演讲 ...
  • 知识图谱(KGs)在工业和学术领域有很多应用,这反过来又推动了朝着大规模地从各种来源提取信息大量的研究工作。尽管付出了这些努力,但众所周知,即使是最先进的KGs也是不完整的。
  • 自2012年谷歌提出“Google Knowledge Graph”以来,知识图谱学术界和工业界受到广泛关注.针对教育领域中信息缺乏系统性组织的不足,本文构建了面向高中的教育测评知识图谱(Educational Assessment Knowledge ...
  • 点击下面卡片,关注我呀,每天给你送来AI技术干货!分享嘉宾:李渔熵简科技 联合创始人编辑整理:唐汝佳出品平台:DataFunTalk导读:本次分享的主题是金融资管领域知识图谱的构建和应用...

    点击下面卡片关注我呀,每天给你送来AI技术干货!


    分享嘉宾:李渔 熵简科技 联合创始人

    编辑整理:唐汝佳

    出品平台:DataFunTalk

    导读:本次分享的主题是金融资管领域知识图谱的构建和应用,主要介绍如何运用大数据、AI这些技术手段,来帮助金融资管客户构建一套面向金融资管领域的知识图谱系统。主要内容包括:

    • 金融资管行业为什么需要知识图谱系统

    • 数据接入:多源异构数据采集平台

    • 熵简知识图谱系统核心技术

    • 熵简知识图谱的典型应用

    01

    金融资管行业为什么需要知识图谱系统

    先简要介绍下熵简科技,我们公司成立于2017年,是一家为金融机构提供数据智能整体解决方案的金融科技公司。具体情况介绍如下图所示。

    所以,在我们看来,为什么金融资管行业需要知识图谱系统?

    1. 投资研究:对抗信息不对称和认知不对称

    我们知道资本市场是一个典型的非完美博弈市场。投资的本质是基于时间维度做价格预测,赚取预期差的钱。而这种预期差主要是来源于那么信息的不对称和认知的不对称。其中认知的不对称会导致“他知我不知”;信息的不对称会令人无法充分利用显性的信息,导致“只知其一,不知其二”的现象。

    现实中,我们人脑是有限注意力的,再资深的研究员和基金经理也会面临不同程度的信息盲点和认知盲点。因此,我们希望构建一套智能化投资研究系统(简称智能投研系统),其核心价值就是帮助投资者持续的对抗其相较于市场的信息不对称和认知不对称上,获取到竞争优势。

    2. 智能投研流程:平台化、工业化、可沉淀

    什么是智能投研?简单来说:以海量数据为驱动力,通过采集研究标的的生产经营活动等数据,利用NLP技术,对数据进行智能化处理,以形成便于解读的指标,并利用机器学习技术,对指标进行进一步的建模分析,最终形成具有决策参考价值的投研情报。

    什么是智能?在熵简知识图谱中,我们认为,智能=数据(数据中台)+逻辑(知识图谱)。利用数据中台丰富金融投资数据的多样性,帮助投研人员提升竞争优势,拓宽数据的使用边界。通过知识图谱承载投研逻辑,将数据转化为知识,帮助金融机构实现研究框架沉淀和结构化表达。

    3. 熵简智能投研体系:产品组件架构

    上图中为熵简知识图谱的产品架构设计。我们经过几年的探索,构建起一套完整的面向金融投资的数字化体系,整个产品矩阵分为数据层、中台层和业务层。

    • 数据层的核心任务是数据获取,我们打造了一套将传统数据和另类数据相融合的数据生产平台,帮助我们的客户以更低的成本触达更加丰富的研究素材。

    • 中台层的核心任务是将多源异构数据转变为投资研究直接可以使用的指标数据、决策支持数据。其中我们提炼了三大中台:数据中台、知识中台和算法中台。

    • 应用层的核心人物是将知识和事实应用于各类资管的投资场景当中,比如说模拟组合、合规风控等。

    02

    数据接入:多源异构数据采集平台

    1. 数据生产平台的需求和挑战

    在前面提到过,金融竞争的本质来自于信息不对称,因此但凡对于投资标的有一定参考价值的数据都需要纳入进来,金融投资需要广泛且多样的数据和信息。针对这些需求,数据生产平台实现了对海量异构数据源(包括研究资讯、宏观经济数据、互联网公开数据等)和数据类型的采集和监控。

    在数据生产平台中,最核心的任务是如何构建一个兼容数千种不同的数据源类型、日处理的数据量在TB级别的大数据采集系统。

    解决这个任务面临三个方面的挑战:

    第一点:如何实现异构来源网站的海量数据抓取;

    第二点:如何能够以比较低的成本快速拓展新的数据源;

    第三点:在上千个数据源的情况下如何保证数据采集的实时性和稳定性。

    2. 海量数据+异构来源的解决方案:云原生的采集系统

    为了解决数据海量和异构来源的问题,我们采用了云原生架构构建大数据采集系统。

    系统以kafka为消息中心,采用事件驱动模型,构建在高可用的Kubernetes集群之上。在 kubernetes上,整个系统由4大功能模块构成,分别是用户控制台、数据采集引擎、数据存储服务、监控和日志服务。我们会把数据采集当中所涉及到的底层技术要素全部进行封装,用户只需要通过简单的配置就可以完成数据采集的任务,大大简化数据采集过程。

    云原生架构的系统,具备微服务化和容器化的特点。

    微服务化——所有组件和服务互相解耦并且独立运行,以支持上千种不同数据源的采集;

    容器化——通过容器编排引擎本身的动态伸缩能力,系统可以自动应对TB级别的数据洪峰的冲击。

    3. 新数据源快速拓展的解决方案:AI赋能的智能化网页抽取系统

    简单来说,对于这样一个系统,我们只需要给出想要抓取网页网址,系统就能够自动识别出该网页哪些字段是标题,哪些字段是正文,哪些字段是日期,而不再需要去翻页,也不需要人工的一个页面一个页面去配置。

    实现原理:如上图所示,网页布局中,每个网页都可以等价为一棵树,网页上的文本、图片都是树上各个节点所携带的信息。想要从原始网页上提取核心字段,具体分为两步:① 将不属于提取内容的节点删掉;② 根据各个节点在树的位置,将节点中的信息序列化为一维文本。

    为了将不属于提取内容的节点删掉:

    第一步:需要将HTML标签进行数字化表示,我们受到谷歌word2vec算法的启示,提出了tag embedding算法,关键思想是学习tag之间的共现关系来实现tag的分布式表示。优点是可以在大规模数据集上进行无监督训练,学习出不同标签之间的语义关系,而不依赖于人工的标注,从而实现HTML标签在50维空间上的分布式表示,并且显著提高后续分类模型的泛化能力,显著降低后续的分类模型对于标注数据量的需求。

    第二步:在tag embedding基础上,通过三层前馈神经网络的二分类器,来判断节点是否应该保留。输入特征是主要包括三大类:1.父节点的标签信息(parent node vector);2.子节点的标签信息(child node vector);3.当前节点的一个标签信息(current node vector)、以及当前节点其他的特征:文本长度(text length current node)、超链接个数(the number of hyperlink of current node)。我们是在10万个标注数据上对模型进行训练,数据来自于50多个新闻资讯网站,在多个网站上进行的测试表示:标记的准确率能够达到97%上,正文中抽取的准确率能够达到95%以上。

    除此之外,这个方法还可以推广到其他应用场景,比如说网页类型的识别,判断当前页面的类型是目录页、广告页、其他页。

    4. 数据采集层技术架构:完善的数据校验和监控系统

    为了保证系统能够高质量稳定的进行数据采集和监控,我们在系统中也构建了一套完备的监控和报警系统,当任何一层一旦发生问题,就可以向运维人员报警,以保证系统的稳定性。

    03

    熵简知识图谱系统核心技术

    1. 知识图谱系统的典型需求

    2. 知识图谱系统架构

    3. 知识中台层技术架构:核心技术

    以上列出了知识图谱系统面临的几大核心挑战:

    • 金融资管场景下的本体设计,通用知识图谱以三元组的结构为主,只能存放简单知识,没办法满足金融领域复杂知识和逻辑的组织需求。所以我们针对金融资管领域的需求,设计了专门的本体体系。

    • 如何利用AI的技术来辅助实现人机协作的图谱构建,我们通过这种人机协作的模式,实现高质量知识图谱的持续的生长。

    • 投研图谱的知识推理;

    • 时间维度的动态建模。

    因为时间的原因,今天主要是重点介绍前面两点。

    4. 熵简知识图谱本体体系

    前面提到,通用知识图谱以三元组结构为主,存放的知识比较简单,没办法满足金融领域复杂的组织需求。而我们的设计目标是通过层次化概念组合,全面精准的表示投资标的,满足至少90%以上的金融分析的一个需求。所以,我们的本体体系一共分为三层,分别是金融实体层、金融概念层和金融事实层。

    上图为知识图谱本体体系的可视化展示,不同颜色代表不同的节点类型,包含三大类节点,金融实体、金融概念和金融事实。

    从这张图,可以看到,通用知识图谱是我们图谱的一个子集,在我们的图谱当中,除了包含年龄、任职的关系等通用知识图谱中的知识外,还包含了许多层次化的金融概念和金融事实。

    比如对一家公司的投资分析,可以从运营能力、盈利能力、品牌知名度、行业驱动因素等多个维度进行。对于一个人物实体,除了年龄等基本信息外,还包括像财务舆情、私生活舆情相关的知识,因为现实中财务舆情、私生活舆情对于该公司的未来走向可能会产生一些重大的影响,所以这也是熵简知识图谱中的一个重要信息,或者说一个知识的维度。

    ① 本体内知识构建的关键技术:知识匹配

    在构建好本体体系后,如何将这些指标数据等,与相应的金融概念进行知识匹配。为此,我们构建了一个基于语义层次分类的知识匹配模型,本质上是一个多层次短文本分类模型,它本质上是一个多层次短文本分类模型,采用Hierarchy TextCNN和memory block架构相结合,兼具强泛化和高精度。目前已经实现了两级的金融概念分类,可以将数据的标题与相应的金融概念进行匹配,涵盖了三十多个金融类别。但这种方法中,类别是固定的,所以我们又引入了基于相关性检索的匹配模型,将金融概念分类问题等价为搜索问题,其对于类别外的金融概念匹配,具有更好的泛化能力。

    基于相关性检索的匹配模型,是一个简化的搜索系统,分为两个部分:实时预测和离线处理。在离线处理部分,系统对现有的知识图谱上的各个节点进行属性提取、关键词提取等预处理,并在数据库中建立相关的索引。在实时预测部分,对于每个新数据,通过短文本理解、召回、结果排序的三阶段处理,我们可以从数据库中匹配到与当前这条数据在金融概念上最接近的一条或多条数据,由此得到相应的金融概念。

    ② 本体内知识构建的关键技术:知识抽取

    经过结构化数据的知识匹配后,对于年报、财经新闻等非结构化文本,需要进行知识抽取。为此,我们首先构建一个句子级别的金融概念识别模型,将知识抽取的问题等价为句子级别序列标注问题,逐句的对研报内容进行分析。当文本片段很长时,我们使用算法中台里的FinBERT构建文本自动摘要模型,将识别为同一概念的句子集合,总结融合为不超过50字或者30字的短文,从而形成金融事实的描述性文本。

    FinBERT预训练方式

    这里介绍一下FinBERT工作,FinBERT是熵简知识图谱系统算法中台的核心语言模型,用,我们是用几百万的研报、财经新闻对原生bert进行二次预训练,得到的适用于金融领域的bert,我们称之为finbert,图中右侧为整个finbert的训练框架,相对于原生的bert,我们主要做了三方面的改进:

    • 引入金融领域语料,包含了30亿的token,超过了原生bert的预训练规模。采用100多万篇左右的金融财经类新闻,200多万篇各类研报,以及从公开渠道收集到的金融类百科词条大概100多万条;

    • 基于金融词典,引入了全词mask,代替了原本字级别mask,这样可以更好的把金融领域的知识和概念引入到模型当中,我们通过权威词典、学术期刊等渠道收集了大约10万词规模的金融领域专门词汇。

    • 加入了一些语义级别的监督任务,比如说行业分类、机构、人物实体提取等,另外为了提高整体的效率,我们在训练过程中引入了混合精度的运算。它可以至少降低一半的模型对显存的占用,同时还能够提高模型的训练速度,大概能够提高三倍。

    知识抽取具体介绍

    这里介绍如何从表格中抽取知识。

    比如说从研报的表格中抽取知识,平常有看研报习惯的同学知道很多研报的第一页会有一张盈利预测表,表格会直接列出这家研究机构对于公司未来几年的业绩预测,所以这个表格的数据是很值得我们把它提取出来、并且匹配到相应的知识图谱的节点上的。自动提取表格分为以下两步:

    • 针对研报表格提取这个场景,熵简科技自研了一套PDF图表提取工具,利用目标检测OCR识别PDF、表格解析等各类的技术,从研报的表格当中把数据提取成结构化数据。

    • 对于结构化数据,利用前面提到的分层次的语义分类模型,以及基于相关性搜索的匹配技术,把抽取出来的知识关联到相应的图谱的节点上。

    ③ 本体内知识构建的关键技术:实体链接

    实体链接的核心目标是将前一步知识匹配和知识抽取阶段得到的知识,链接到知识库相对应的实体上。上图左边展示了实体链接的整套流程,一共包含5个步骤,分别是命名实体识别,实体库/知识图谱实体联合召回,以及实体消歧和基于上下文匹配的实体排序,以及最终的实体判决步骤。

    a. 命名实体阶段:

    我们采用了改进Transformer网络+crf模型进行人物和公司实体的提取,相对于传统的 transformer结构,我们这个地方主要是有三方面的改进:在输入层同时引入了字向量和bigram向量,它可以显著的提高网络的编码能力;引入了前面提到的finbert做一些蒸馏学习,可以一定程度提高现有轻量级网络的提取能力。

    为了进一步提高整体的实体召回率,收集外部实体,并结合知识图谱上的现有实体,构建了一个庞大的实体库,涵盖了A股、港股、中概股以及600多万家公司的一个实体的数据,再通过AC自动机进行直接的匹配召回。

    结合这两种方式,我们可以实现一个F1值超过0.95的、精确度比较高的实体提取过程。

    b.采用基于FinBERT的孪生网络对进行实体消歧和实体排序,最终根据排序分数来确定知识片段中的实体在知识图谱中的位置。FinBERT分别对于知识图谱中的候选实体与知识片段中的实体进行编码,最终在隐空间进行相关性分析,获取其匹配分数。

    ④ 本体内知识构建的关键技术:知识融合

    知识融合的目的,是将匹配到知识图谱上同一实体、同一属性的金融事实,但来源不同、时效不同、质量不同的多条知识进行融合,剔除掉冗余的信息,保持图谱知识的准确、精炼。对于同一个节点的信息,我们会按照时效性、权威性、丰富度、观点冲突这四个维度进行融合,把多余、错误的信息去除掉,突出相对价值量最大的信息。对于时效性,我们根据金融事实的时问戳以及消息类型来判断知识优先级,一般而言,越近的知识权重越高。对于权威性,不同来源的金融事实具备不同的可信度,对于研报来源,可根据券商评级来给予不同的权重。比如说从人民日报提取的知识一定比自媒体信息的权威性更高。在一些情况下,也要综合考虑时效性和权威性,比如说对于GDP,国家统计局给出的数据即使显著早于某些媒体上公布的数据,但我们也依然以国家统计局的数据为准。

    04

    熵简知识图谱的典型应用

    最后一部分,介绍一个下游场景的应用:智能投研助手。

    上图举例了5G行业知识图谱的构建和应用案例,图中可以看到:5G图谱包含了二级市场的行情数据等,也包括一些非结构化的5G舆情数据。在这个基础上,结合前面提到的整套构建框架,我们就可以得到整个5G行业知识图谱。

    今天的分享就到这里,谢谢大家。


    在文末分享、点赞、在看,给个3连击呗~


    分享嘉宾:

    说个正事哈

    由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

    (1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

    (2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

    感谢支持,比心

    投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

    记得备注呦

    点击上面卡片,关注我呀,每天推送AI技术干货~

    整理不易,还望给个在看!
    
    展开全文
  • 可视化知识图谱之研究——以台湾智能运输系统学术领域为例.rar
  • 可视化知识图谱之研究——以台湾智能运输系统学术领域为例.pdf
  • 理解和运用自然语言是人工智能的核心问题之一,如何让机器可以像人一样感知和认识世界,知识图谱作为机器可以理解的"语言",在智能时代中扮演了极其重要的角色。然而,由于知识图谱高...

    理解和运用自然语言是人工智能的核心问题之一,如何让机器可以像人一样感知和认识世界,知识图谱作为机器可以理解的"语言",在智能时代中扮演了极其重要的角色。然而,由于知识图谱高度结构化的特点,我们常常需要构建结构化查询语句(SPARQL等)来查找相关知识,这为普通用户使用知识图谱造成了不便。因此,在知识图谱上进行自然语言问答(KBQA)近年来成为热门应用之一。

    在学界,Semantic Parsing、IR等创新性方法与框架百花齐放。在业界,智能音箱、语音助手、智能问诊等应用也极大地拓宽了知识图谱自然语言问答的应用场景,进一步加强了对高效、准确、易用、安全、可解释的KBQA系统的需求。

    在美团内部包括商家IM、智能客服以及复杂条件搜索等,都有基于知识图谱的问答能力的支持。面对这一需求,美团搜索与NLP部联合北大王选计算所在CCKS2021会议上提出了“生活服务领域知识图谱问答”这一评测任务,期待参赛者们可以提出创新性的KBQA系统,同时处理“专而深”的特定领域和“广而浅”的开放领域知识图谱,对用户提出的复杂多样的自然语言问题给出准确答案。同时,我们更希望此次评测可以为KBQA的下一步研究和落地提供一些理论及实践层面的启发。

    任务描述

    本任务属于中文知识图谱自然语言问答任务,简称CKBQA(Chinese Knowledge Base Question Answering)。即输入一句中文问题,问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型,不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取、语义解析等子任务。这些任务的训练可以使用额外的资源,但是最终的答案必须来自给定的知识库。

    本次知识图谱问答任务是在CCKS上举办的第四届。今年在OpenKG基础上引入生活服务领域知识库及问答数据。同时依然保留去年开放领域的问答数据以供参赛队伍对模型进行训练。我们期望参赛选手的问答系统既能处理各种百科类的浅层问题,也能处理具备一定领域知识。本评测任务所使用的生活服务领域知识图谱来源于美团,其中包括旅游、酒店、美食等多种领域的数据。我们将这些数据集整合到一起,同开放领域知识库PKUBASE一起作为问答任务的依据。

    报名方式与时间

    2021 CCKS-生活服务领域知识图谱问答评测任务将于5月15日正式开启报名通道,欢迎进入“CCKS 2021:生活服务知识图谱问答评测”了解更多任务详情。

    本次评测可以采用平台或邮件两种报名方式

    平台报名点击:CCKS 2021:生活服务知识图谱问答评测

    邮件报名方式如下:

    - 邮件标题为:“CCKS2021-任务名称-参赛单位”。例如:“CCKS2021-任务十三生活服务领域知识图谱问答-北京大学”。

    - 邮件内容为:参赛队名、参赛队长信息(姓名,邮箱,联系电话)、参赛单位名称。

    - 报名邮箱:

        linyinnian@pku.edu.cn 

        wangsirui@meituan.com

    重要日期

    - 报名时间:即日起—7月15日

    - 训练及验证数据发布:5月15日

    - 测试数据发布:7月15日

    - 提交测试结果:7月20日

    - 评测论文提交:8月5日

    评测奖励

    我们为本次评测任务设置了丰厚的奖金,诚邀学术界和工业界的研究者和开发者参加本次竞赛!

    第一名:20000元

    第二名:10000元

    第三名:5000元

    创新奖:5000元

    比赛讨论区

    如有任何问题,欢迎加入比赛的微信讨论群。

    通过扫描以下二维码添加biendata小助手为好友,添加请备注“机构+姓名+生活服务领域知识图谱问答”。

    已添加过“biendata小助手”的选手,请直接私信:“机构+姓名+CCKS 2021:生活服务领域知识图谱问答”。由biendata小助手邀请加入比赛讨论群。

    ????

    现在,在「知乎」也能找到我们了

    进入知乎首页搜索「PaperWeekly」

    点击「关注」订阅我们的专栏吧

    关于PaperWeekly

    PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

    展开全文
  • 转载公众号 | DataFunTalk 分享嘉宾:李渔 熵简科技 联合创始人 编辑整理:唐汝佳 出品平台:DataFunTalk 导读:本次分享的主题是金融资管领域知识图谱的构建和应用,主要介绍如何运用大数据、AI这些技术手段,来...

    转载公众号 | DataFunTalk


                          

    分享嘉宾:李渔 熵简科技 联合创始人

    编辑整理:唐汝佳

    出品平台:DataFunTalk

    导读:本次分享的主题是金融资管领域知识图谱的构建和应用,主要介绍如何运用大数据、AI这些技术手段,来帮助金融资管客户构建一套面向金融资管领域的知识图谱系统。主要内容包括:

    • 金融资管行业为什么需要知识图谱系统

    • 数据接入:多源异构数据采集平台

    • 熵简知识图谱系统核心技术

    • 熵简知识图谱的典型应用

    01

    金融资管行业为什么需要知识图谱系统

    先简要介绍下熵简科技,我们公司成立于2017年,是一家为金融机构提供数据智能整体解决方案的金融科技公司。具体情况介绍如下图所示。

    所以,在我们看来,为什么金融资管行业需要知识图谱系统?

    1. 投资研究:对抗信息不对称和认知不对称

    我们知道资本市场是一个典型的非完美博弈市场。投资的本质是基于时间维度做价格预测,赚取预期差的钱。而这种预期差主要是来源于那么信息的不对称和认知的不对称。其中认知的不对称会导致“他知我不知”;信息的不对称会令人无法充分利用显性的信息,导致“只知其一,不知其二”的现象。

    现实中,我们人脑是有限注意力的,再资深的研究员和基金经理也会面临不同程度的信息盲点和认知盲点。因此,我们希望构建一套智能化投资研究系统(简称智能投研系统),其核心价值就是帮助投资者持续的对抗其相较于市场的信息不对称和认知不对称上,获取到竞争优势。

    2. 智能投研流程:平台化、工业化、可沉淀

    什么是智能投研?简单来说:以海量数据为驱动力,通过采集研究标的的生产经营活动等数据,利用NLP技术,对数据进行智能化处理,以形成便于解读的指标,并利用机器学习技术,对指标进行进一步的建模分析,最终形成具有决策参考价值的投研情报。

    什么是智能?在熵简知识图谱中,我们认为,智能=数据(数据中台)+逻辑(知识图谱)。利用数据中台丰富金融投资数据的多样性,帮助投研人员提升竞争优势,拓宽数据的使用边界。通过知识图谱承载投研逻辑,将数据转化为知识,帮助金融机构实现研究框架沉淀和结构化表达。

    3. 熵简智能投研体系:产品组件架构

    上图中为熵简知识图谱的产品架构设计。我们经过几年的探索,构建起一套完整的面向金融投资的数字化体系,整个产品矩阵分为数据层、中台层和业务层。

    • 数据层的核心任务是数据获取,我们打造了一套将传统数据和另类数据相融合的数据生产平台,帮助我们的客户以更低的成本触达更加丰富的研究素材。

    • 中台层的核心任务是将多源异构数据转变为投资研究直接可以使用的指标数据、决策支持数据。其中我们提炼了三大中台:数据中台、知识中台和算法中台。

    • 应用层的核心人物是将知识和事实应用于各类资管的投资场景当中,比如说模拟组合、合规风控等。

    02

    数据接入:多源异构数据采集平台

    1. 数据生产平台的需求和挑战

    在前面提到过,金融竞争的本质来自于信息不对称,因此但凡对于投资标的有一定参考价值的数据都需要纳入进来,金融投资需要广泛且多样的数据和信息。针对这些需求,数据生产平台实现了对海量异构数据源(包括研究资讯、宏观经济数据、互联网公开数据等)和数据类型的采集和监控。

    在数据生产平台中,最核心的任务是如何构建一个兼容数千种不同的数据源类型、日处理的数据量在TB级别的大数据采集系统。

    解决这个任务面临三个方面的挑战:

    第一点:如何实现异构来源网站的海量数据抓取;

    第二点:如何能够以比较低的成本快速拓展新的数据源;

    第三点:在上千个数据源的情况下如何保证数据采集的实时性和稳定性。

    2. 海量数据+异构来源的解决方案:云原生的采集系统

    为了解决数据海量和异构来源的问题,我们采用了云原生架构构建大数据采集系统。

    系统以kafka为消息中心,采用事件驱动模型,构建在高可用的Kubernetes集群之上。在 kubernetes上,整个系统由4大功能模块构成,分别是用户控制台、数据采集引擎、数据存储服务、监控和日志服务。我们会把数据采集当中所涉及到的底层技术要素全部进行封装,用户只需要通过简单的配置就可以完成数据采集的任务,大大简化数据采集过程。

    云原生架构的系统,具备微服务化和容器化的特点。

    微服务化——所有组件和服务互相解耦并且独立运行,以支持上千种不同数据源的采集;

    容器化——通过容器编排引擎本身的动态伸缩能力,系统可以自动应对TB级别的数据洪峰的冲击。

    3. 新数据源快速拓展的解决方案:AI赋能的智能化网页抽取系统

    简单来说,对于这样一个系统,我们只需要给出想要抓取网页网址,系统就能够自动识别出该网页哪些字段是标题,哪些字段是正文,哪些字段是日期,而不再需要去翻页,也不需要人工的一个页面一个页面去配置。

    实现原理:如上图所示,网页布局中,每个网页都可以等价为一棵树,网页上的文本、图片都是树上各个节点所携带的信息。想要从原始网页上提取核心字段,具体分为两步:① 将不属于提取内容的节点删掉;② 根据各个节点在树的位置,将节点中的信息序列化为一维文本。

    为了将不属于提取内容的节点删掉:

    第一步:需要将HTML标签进行数字化表示,我们受到谷歌word2vec算法的启示,提出了tag embedding算法,关键思想是学习tag之间的共现关系来实现tag的分布式表示。优点是可以在大规模数据集上进行无监督训练,学习出不同标签之间的语义关系,而不依赖于人工的标注,从而实现HTML标签在50维空间上的分布式表示,并且显著提高后续分类模型的泛化能力,显著降低后续的分类模型对于标注数据量的需求。

    第二步:在tag embedding基础上,通过三层前馈神经网络的二分类器,来判断节点是否应该保留。输入特征是主要包括三大类:1.父节点的标签信息(parent node vector);2.子节点的标签信息(child node vector);3.当前节点的一个标签信息(current node vector)、以及当前节点其他的特征:文本长度(text length current node)、超链接个数(the number of hyperlink of current node)。我们是在10万个标注数据上对模型进行训练,数据来自于50多个新闻资讯网站,在多个网站上进行的测试表示:标记的准确率能够达到97%上,正文中抽取的准确率能够达到95%以上。

    除此之外,这个方法还可以推广到其他应用场景,比如说网页类型的识别,判断当前页面的类型是目录页、广告页、其他页。

    4. 数据采集层技术架构:完善的数据校验和监控系统

    为了保证系统能够高质量稳定的进行数据采集和监控,我们在系统中也构建了一套完备的监控和报警系统,当任何一层一旦发生问题,就可以向运维人员报警,以保证系统的稳定性。

    03

    熵简知识图谱系统核心技术

    1. 知识图谱系统的典型需求

    2. 知识图谱系统架构

    3. 知识中台层技术架构:核心技术

    以上列出了知识图谱系统面临的几大核心挑战:

    • 金融资管场景下的本体设计,通用知识图谱以三元组的结构为主,只能存放简单知识,没办法满足金融领域复杂知识和逻辑的组织需求。所以我们针对金融资管领域的需求,设计了专门的本体体系。

    • 如何利用AI的技术来辅助实现人机协作的图谱构建,我们通过这种人机协作的模式,实现高质量知识图谱的持续的生长。

    • 投研图谱的知识推理;

    • 时间维度的动态建模。

    因为时间的原因,今天主要是重点介绍前面两点。

    4. 熵简知识图谱本体体系

    前面提到,通用知识图谱以三元组结构为主,存放的知识比较简单,没办法满足金融领域复杂的组织需求。而我们的设计目标是通过层次化概念组合,全面精准的表示投资标的,满足至少90%以上的金融分析的一个需求。所以,我们的本体体系一共分为三层,分别是金融实体层、金融概念层和金融事实层。

    上图为知识图谱本体体系的可视化展示,不同颜色代表不同的节点类型,包含三大类节点,金融实体、金融概念和金融事实。

    从这张图,可以看到,通用知识图谱是我们图谱的一个子集,在我们的图谱当中,除了包含年龄、任职的关系等通用知识图谱中的知识外,还包含了许多层次化的金融概念和金融事实。

    比如对一家公司的投资分析,可以从运营能力、盈利能力、品牌知名度、行业驱动因素等多个维度进行。对于一个人物实体,除了年龄等基本信息外,还包括像财务舆情、私生活舆情相关的知识,因为现实中财务舆情、私生活舆情对于该公司的未来走向可能会产生一些重大的影响,所以这也是熵简知识图谱中的一个重要信息,或者说一个知识的维度。

    ① 本体内知识构建的关键技术:知识匹配

    在构建好本体体系后,如何将这些指标数据等,与相应的金融概念进行知识匹配。为此,我们构建了一个基于语义层次分类的知识匹配模型,本质上是一个多层次短文本分类模型,它本质上是一个多层次短文本分类模型,采用Hierarchy TextCNN和memory block架构相结合,兼具强泛化和高精度。目前已经实现了两级的金融概念分类,可以将数据的标题与相应的金融概念进行匹配,涵盖了三十多个金融类别。但这种方法中,类别是固定的,所以我们又引入了基于相关性检索的匹配模型,将金融概念分类问题等价为搜索问题,其对于类别外的金融概念匹配,具有更好的泛化能力。

    基于相关性检索的匹配模型,是一个简化的搜索系统,分为两个部分:实时预测和离线处理。在离线处理部分,系统对现有的知识图谱上的各个节点进行属性提取、关键词提取等预处理,并在数据库中建立相关的索引。在实时预测部分,对于每个新数据,通过短文本理解、召回、结果排序的三阶段处理,我们可以从数据库中匹配到与当前这条数据在金融概念上最接近的一条或多条数据,由此得到相应的金融概念。

    ② 本体内知识构建的关键技术:知识抽取

    经过结构化数据的知识匹配后,对于年报、财经新闻等非结构化文本,需要进行知识抽取。为此,我们首先构建一个句子级别的金融概念识别模型,将知识抽取的问题等价为句子级别序列标注问题,逐句的对研报内容进行分析。当文本片段很长时,我们使用算法中台里的FinBERT构建文本自动摘要模型,将识别为同一概念的句子集合,总结融合为不超过50字或者30字的短文,从而形成金融事实的描述性文本。

    FinBERT预训练方式

    这里介绍一下FinBERT工作,FinBERT是熵简知识图谱系统算法中台的核心语言模型,用,我们是用几百万的研报、财经新闻对原生bert进行二次预训练,得到的适用于金融领域的bert,我们称之为finbert,图中右侧为整个finbert的训练框架,相对于原生的bert,我们主要做了三方面的改进:

    • 引入金融领域语料,包含了30亿的token,超过了原生bert的预训练规模。采用100多万篇左右的金融财经类新闻,200多万篇各类研报,以及从公开渠道收集到的金融类百科词条大概100多万条;

    • 基于金融词典,引入了全词mask,代替了原本字级别mask,这样可以更好的把金融领域的知识和概念引入到模型当中,我们通过权威词典、学术期刊等渠道收集了大约10万词规模的金融领域专门词汇。

    • 加入了一些语义级别的监督任务,比如说行业分类、机构、人物实体提取等,另外为了提高整体的效率,我们在训练过程中引入了混合精度的运算。它可以至少降低一半的模型对显存的占用,同时还能够提高模型的训练速度,大概能够提高三倍。

    知识抽取具体介绍

    这里介绍如何从表格中抽取知识。

    比如说从研报的表格中抽取知识,平常有看研报习惯的同学知道很多研报的第一页会有一张盈利预测表,表格会直接列出这家研究机构对于公司未来几年的业绩预测,所以这个表格的数据是很值得我们把它提取出来、并且匹配到相应的知识图谱的节点上的。自动提取表格分为以下两步:

    • 针对研报表格提取这个场景,熵简科技自研了一套PDF图表提取工具,利用目标检测OCR识别PDF、表格解析等各类的技术,从研报的表格当中把数据提取成结构化数据。

    • 对于结构化数据,利用前面提到的分层次的语义分类模型,以及基于相关性搜索的匹配技术,把抽取出来的知识关联到相应的图谱的节点上。

    ③ 本体内知识构建的关键技术:实体链接

    实体链接的核心目标是将前一步知识匹配和知识抽取阶段得到的知识,链接到知识库相对应的实体上。上图左边展示了实体链接的整套流程,一共包含5个步骤,分别是命名实体识别,实体库/知识图谱实体联合召回,以及实体消歧和基于上下文匹配的实体排序,以及最终的实体判决步骤。

    a. 命名实体阶段:

    我们采用了改进Transformer网络+crf模型进行人物和公司实体的提取,相对于传统的 transformer结构,我们这个地方主要是有三方面的改进:在输入层同时引入了字向量和bigram向量,它可以显著的提高网络的编码能力;引入了前面提到的finbert做一些蒸馏学习,可以一定程度提高现有轻量级网络的提取能力。

    为了进一步提高整体的实体召回率,收集外部实体,并结合知识图谱上的现有实体,构建了一个庞大的实体库,涵盖了A股、港股、中概股以及600多万家公司的一个实体的数据,再通过AC自动机进行直接的匹配召回。

    结合这两种方式,我们可以实现一个F1值超过0.95的、精确度比较高的实体提取过程。

    b.采用基于FinBERT的孪生网络对进行实体消歧和实体排序,最终根据排序分数来确定知识片段中的实体在知识图谱中的位置。FinBERT分别对于知识图谱中的候选实体与知识片段中的实体进行编码,最终在隐空间进行相关性分析,获取其匹配分数。

    ④ 本体内知识构建的关键技术:知识融合

    知识融合的目的,是将匹配到知识图谱上同一实体、同一属性的金融事实,但来源不同、时效不同、质量不同的多条知识进行融合,剔除掉冗余的信息,保持图谱知识的准确、精炼。对于同一个节点的信息,我们会按照时效性、权威性、丰富度、观点冲突这四个维度进行融合,把多余、错误的信息去除掉,突出相对价值量最大的信息。对于时效性,我们根据金融事实的时问戳以及消息类型来判断知识优先级,一般而言,越近的知识权重越高。对于权威性,不同来源的金融事实具备不同的可信度,对于研报来源,可根据券商评级来给予不同的权重。比如说从人民日报提取的知识一定比自媒体信息的权威性更高。在一些情况下,也要综合考虑时效性和权威性,比如说对于GDP,国家统计局给出的数据即使显著早于某些媒体上公布的数据,但我们也依然以国家统计局的数据为准。

    04

    熵简知识图谱的典型应用

    最后一部分,介绍一个下游场景的应用:智能投研助手。

    上图举例了5G行业知识图谱的构建和应用案例,图中可以看到:5G图谱包含了二级市场的行情数据等,也包括一些非结构化的5G舆情数据。在这个基础上,结合前面提到的整套构建框架,我们就可以得到整个5G行业知识图谱。

    今天的分享就到这里,谢谢大家。


    分享嘉宾:

     


     

    OpenKG

    OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

    点击阅读原文,进入 OpenKG 网站。

    展开全文
  • 知识图谱全面总结

    千次阅读 2021-11-15 16:59:38
    文章目录1 介绍1.1 定义1.2 发展历史1.3 知识图谱的应用2 数据存储2.1 资源描述框架(Resource Description Framework,RDF)2.2 图数据库3 知识图谱架构3.1 逻辑架构3.2 技术架构4 构建技术4.1 数据获取4.2 信息...
  • 本文以知识图谱为切入点,重点讲解了阿里巴巴B2B在电商结构化信息挖掘和场景应用等方面的经验。 知识图谱并不是一个全新的概念,它经历了知识工程、专家系统、语义网络等多种形式。 01、知识工程与专家系统 在...
  • 作者:东北大学-知识图谱研究组 任飞亮TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库,知识库由“东北大学-知识图谱研究组”开发完成。和已有知识图谱如...
  • 文章发布于公号【数智物语】 (ID:...报告摘要:近年来,知识图谱技术进展迅速,各种领域知识图谱技术在很多领域或行业取得了显著落地效果。在领域知识图谱技术的落地实践过程中涌现出一大批理论与工程问题。...
  • 本内容主要介绍知识图谱(Knowledge Graph) 的发展、定义、构建和应用。
  • 通用知识图谱VS行业知识图谱

    万次阅读 2020-01-12 22:46:51
      众所周知,知识图谱是Google于2012年提出,用来优化搜索结果。经过多年的发展,知识图谱在人工智能的许多行业都拥有了成熟落地的应用。按照知识图谱的覆盖面来看,主要分为通用知识图谱与行业知识图谱。 This ...
  • 垂直知识图谱的构建与应用研究

    千次阅读 2020-12-22 18:20:49
    龙源期刊网http://www.qikan.com.cn垂直知识图谱的构建与应用研究作者:阮彤王梦婕王昊奋胡芳槐来源:《知识管理论坛》2016年第03期摘要:[目的/意义]近年来,知识图谱技术受到学术界和工业界的普遍关注。...
  • 理解和运用自然语言是人工智能的核心问题之一,如何让机器可以像人一样感知和认识世界,知识图谱作为机器可以理解的"语言",在智能时代中扮演了极其重要的角色。然而,由于知识图谱高...
  • 垂直知识图谱的构建与应用研究-知识管理论坛知识管理论坛2016 年 第 3 期(总第 3 期)【学术探索】垂直知识图谱的构建与应用研究1 2 1 3◎ 阮彤 王梦婕 王昊奋 胡芳槐1 华东理工大学信息学院 上海 2002372 华东理工...
  • 知识图谱概述

    千次阅读 2021-07-21 09:39:13
    一,知识图谱是什么? 知识图谱本质上是语义网络,由节点(point)、边(edge)和属性(property)组成,在知识图图谱里,每个节点表示现实世界中的‘实体’,每条边表示实体与实体之间的‘关系’。也就是说,知识图谱...
  • 知识图谱入门一:知识图谱介绍

    万次阅读 多人点赞 2021-01-11 23:35:34
    一、知识图谱简介 1.1 引言 从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。 早在 2010 年微软就开始...
  • 知识图谱构建实战

    千次阅读 2022-04-02 09:06:37
    知识图谱构建例子
  • 近年来,以机器学习、知识图谱为代表的人工智能技术逐渐变得普及。从车牌识别、人脸识别、语音识别、智能助手、推荐系统到自动驾驶,人们在日常生活中都可能有意无意地用到了人工智能技术。这些技术的背后都离不开...
  • 知识图谱知识图谱的基础概念与构建流程

    千次阅读 多人点赞 2019-11-09 18:46:49
    2、知识图谱的定义 3、知识图谱的架构 3.1知识图谱的逻辑结构 3.2知识图谱的体系架构 4、代表性知识图谱库 5、知识图谱构建的关键技术 5.1 知识提取 5.2 知识表示 5.3 知识融合 【导读】知识图谱技术是人工...
  • 但在求职过程中,岗位匹配主要以关键词搜索为主,返回的招聘信息较为分散,岗位所需的知识和技能无法被全面展示,这将影响求职者对于岗位的认知甚至职业选择.为有效解决上述问题,学术界和工业界通过定义岗位胜任力模型为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,019
精华内容 3,207
关键字:

学术领域知识图谱