精华内容
下载资源
问答
  • 知识问答KB-QA

    2020-05-12 08:33:00
    向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx内容速览什么是知识库(knowledge base, KB)什么是知识库问答(kno...


    向AI转型的程序员都关注了这个号????????????

    机器学习AI算法工程   公众号:datayx

    内容速览

    • 什么是知识库(knowledge base, KB)

    • 什么是知识库问答(knowledge base question answering, KB-QA)

    • 知识库问答的主流方法

    • 知识库问答的数据集

    什么是知识库

    “奥巴马出生在火奴鲁鲁。”

    “姚明是中国人。”

    “谢霆锋的爸爸是谢贤。”

    这些就是一条条知识,而把大量的知识汇聚起来就成为了知识库。我们可以在wiki百科,百度百科等百科全书查阅到大量的知识。然而,这些百科全书的知识组建形式是非结构化自然语言,这样的组织方式很适合人们阅读但并不适合计算机去处理。为了方便计算机的处理和理解,我们需要更加形式化、简洁化的方式去表示知识,那就是三元组(triple)

    “奥巴马出生在火奴鲁鲁。” 可以用三元组表示为 (BarackObama, PlaceOfBirth, Honolulu)。

    这里我们可以简单的把三元组理解为 (实体entity,实体关系relation,实体entity),进一步的,如果我们把实体看作是结点,把实体关系(包括属性,类别等等)看作是一条边,那么包含了大量三元组的知识库就成为了一个庞大的知识图。

    知识库可以分为两种类型,一种是以Freebase,Yago2为代表的Curated KBs,它们从维基百科和WordNet等知识库中抽取大量的实体及实体关系,可以把它们理解为是一种结构化的维基百科,被google收购的Freebase中包含了上千万个实体,共计19亿条triple。

    值得一提的是,有时候会把一些实体称为topic,如Justin Bieber。实体关系也可分为两种,一种是属性property,一种是关系relation。如下图所示,属性和关系的最大区别在于,属性所在的三元组对应的两个实体,常常是一个topic和一个字符串,如属性Type/Gender,对应的三元组(Justin Bieber, Type, Person),而关系所在的三元组所对应的两个实体,常常是两个topic。如关系Place_of_Brith,对应的三元组(Justin Bieber, Place_of_brith,London)

    (图中蓝色方块表示topic,橙色椭圆包括属性值,它们都属于知识库的实体,蓝色直线表示关系,橙色直线表示属性,它们都统称为知识库的实体关系,都可以用三元组刻画实体关系和实体)

    但是,像维基百科这样的知识库,与整个互联网相比,仍只能算沧海一粟。知识库的另外一种类型,则是以Open Information Extraction (Open IE)Never-Ending Language Learning (NELL) 为代表的Extracted KBs,它们直接从上亿个网页中抽取实体关系三元组。与Freebase相比,这样得到的知识更加具有多样性,而它们的实体关系和实体更多的则是自然语言的形式,如“奥巴马出生在火奴鲁鲁。” 可以被表示为(“Obama”, “was also born in”, “ Honolulu”),当然,直接从网页中抽取出来的知识,也会存在一定的noisy,其精确度要低于Curated KBs。

    Extracted KBs 知识库涉及到的两大关键技术是

    1. 实体链指(Entity linking) ,即将文档中的实体名字链接到知识库中特定的实体上。它主要涉及自然语言处理领域的两个经典问题实体识别 (Entity Recognition) 与实体消歧 (Entity Disambiguation),简单地来说,就是要从文档中识别出人名、地名、机构名、电影等命名实体。并且,在不同环境下同一实体名称可能存在歧义,如苹果,我们需要根据上下文环境进行消歧。

    2. 关系抽取 (Relation extraction),即将文档中的实体关系抽取出来,主要涉及到的技术有词性标注 (Part-of-Speech tagging, POS),语法分析,依存关系树 (dependency tree) 以及构建SVM、最大熵模型等分类器进行关系分类等。

    什么是知识库问答

    知识库问答(knowledge base question answering,KB-QA)即给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。如下图所示

    与对话系统、对话机器人的交互式对话不同,KB-QA具有以下特点:

    1. 答案:回答的答案是知识库中的实体或实体关系,或者no-answer(即该问题在KB中找不到答案),当然这里答案不一定唯一,比如 中国的城市有哪些 。而对话系统则回复的是自然语言句子,有时甚至需要考虑上下文语境。

    2. 评价标准:回召率 (Recall),精确率 (Precision) ,F1-Score。而对话系统的评价标准以人工评价为主,以及BLEU和Perplexity。

    当我们在百度询问 2016年奥斯卡最佳男主角 时,百度会根据知识库进行查询和推理,返回答案,这其实就是KB-QA的一个应用。

    知识库问答的主流方法

    关于KB-QA的方法,个人认为,传统的主流方法可以分为三类:

    • 语义解析(Semantic Parsing):该方法是一种偏linguistic的方法,主体思想是将自然语言转化为一系列形式化的逻辑形式(logic form),通过对逻辑形式进行自底向上的解析,得到一种可以表达整个问题语义的逻辑形式,通过相应的查询语句(类似lambda-Caculus)在知识库中进行查询,从而得出答案。下图红色部分即逻辑形式,绿色部分where was Obama born 为自然语言问题,蓝色部分为语义解析进行的相关操作,而形成的语义解析树的根节点则是最终的语义解析结果,可以通过查询语句直接在知识库中查询最终答案。

    这里给出语义解析方法的一些代表论文

    Berant J, Chou A, Frostig R, et al. Semantic Parsing on Freebase from Question-Answer Pairs[C]//EMNLP. 2013, 2(5): 6.

    Cai Q, Yates A. Large-scale Semantic Parsing via Schema Matching and Lexicon Extension[C]//ACL (1). 2013: 423-433.

    Kwiatkowski T, Choi E, Artzi Y, et al. Scaling semantic parsers with on-the-fly ontology matching[C]//In Proceedings of EMNLP. Percy. 2013.

    Fader A, Zettlemoyer L, Etzioni O. Open question answering over curated and extracted knowledge bases[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014: 1156-1165.

    • 信息抽取(Information Extraction):该类方法通过提取问题中的实体,通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图,子图中的每一个节点或边都可以作为候选答案,通过观察问题依据某些规则或模板进行信息抽取,得到问题特征向量,建立分类器通过输入问题特征向量对候选答案进行筛选,从而得出最终答案。信息抽取的代表论文Yao X, Van Durme B. Information Extraction over Structured Data: Question Answering with Freebase[C]//ACL (1). 2014: 956-966.

    • 向量建模(Vector Modeling): 该方法思想和信息抽取的思想比较接近,根据问题得出候选答案,把问题和候选答案都映射为分布式表达(Distributed Embedding),通过训练数据对该分布式表达进行训练,使得问题和正确答案的向量表达的得分(通常以点乘为形式)尽量高,如下图所示。模型训练完成后则可根据候选答案的向量表达和问题表达的得分进行筛选,得出最终答案。

    向量建模方法的代表论文

    Bordes A, Chopra S, Weston J. Question answering with subgraph embeddings[J]. arXiv preprint arXiv:1406.3676, 2014.

    Yang M C, Duan N, Zhou M, et al. Joint Relational Embeddings for Knowledge-based Question Answering[C]//EMNLP. 2014, 14: 645-650.

    Bordes A, Weston J, Usunier N. Open question answering with weakly supervised embedding models[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer Berlin Heidelberg, 2014: 165-180.

    细心的朋友已经发现了,以上三种方法的代表论文都集中在13-14年。那么14年之后KB-QA的主流方法是什么呢?

    随着深度学习(Deep Learning)在自然语言处理领域的飞速发展,从15年开始,开始涌现出一系列基于深度学习的KB-QA文章,通过深度学习对传统的方法进行提升,取得了较好的效果,比如:

    使用卷积神经网络向量建模方法进行提升:

    Dong L, Wei F, Zhou M, et al. Question Answering over Freebase with Multi-Column Convolutional Neural Networks[C]//ACL (1). 2015: 260-269.

    使用卷积神经网络语义解析方法进行提升:

    Yih S W, Chang M W, He X, et al. Semantic parsing via staged query graph generation: Question answering with knowledge base[J]. 2015.

    (注 该paper来自微软,是ACL 2015年的Outstanding paper,也是目前KB-QA效果最好的paper之一)

    使用长短时记忆网络(Long Short-Term Memory,LSTM),卷积神经网络(Convolutional Neural Networks,CNNs)进行实体关系分类:

    Xu Y, Mou L, Li G, et al. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths[C]//EMNLP. 2015: 1785-1794.

    Zeng D, Liu K, Lai S, et al. Relation Classification via Convolutional Deep Neural Network[C]//COLING. 2014: 2335-2344.(Best paper)

    Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]//EMNLP. 2015: 1753-1762.

    使用记忆网络(Memory Networks),注意力机制(Attention Mechanism)进行KB-QA:

    Bordes A, Usunier N, Chopra S, et al. Large-scale simple question answering with memory networks[J]. arXiv preprint arXiv:1506.02075, 2015.

    Zhang Y, Liu K, He S, et al. Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information[J]. arXiv preprint arXiv:1606.00979, 2016.

    以上论文几乎都使用了Freebase作为knowledge base,并且在WebQuestion数据集上进行过测试,这里给出各种方法的效果对比图,给大家一个更加直观的感受。

    知识库问答的数据集

    最后,我们再简单地介绍一下KB-QA问题的Benchmark数据集——WebQuestion。

    该数据集由Berant J, Chou A, Frostig R, et al.在13年的论文Semantic Parsing on Freebase from Question-Answer Pairs中公开。

    作者首先使用Google Suggest API获取以wh-word(what,who,why,where,whose...)为开头且只包含一个实体的问题,以“where was Barack Obama born?”作为问题图谱的起始节点,以Google Suggest API给出的建议作为新的问题,通过宽度优先搜索获取问题。具体来讲,对于每一个队列中的问题,通过对它删去实体,删去实体之前的短语,删去实体之后的短语形成3个新的query,将这三个新query放到google suggest中,每个query将生成5个候选问题,加入搜索队列,直到1M个问题被访问完。如下图所示

    获取完问题后,随机选取100K个问题交给Amazon Mechanical Turk (AMT)的工人,让工人回答答案。注意,这里对答案进行了限制,让AMT的工人只能把答案设置为Freebase上的实体(entity),实体列表,值(value)或者no-answer。

    最终,得到了5,810组问题答案对,其词汇表包含了4,525个词。并且,WebQuestion还提供了每个答案对应知识库的主题节点(topic node)。

    可以看出WebQuestion的问题与freebase是不相关的,更加偏向自然语言,也更多样化。这里给出一些例子

    “What is James Madison most famous for?”

    “What movies does Taylor Lautner play in?”

    “What music did Beethoven compose?”

    “What kind of system of government does the United States have?”

    除了该数据集,这里再补充一些其他数据集的信息,如下图所示:


    阅读过本文的人还看了以下文章:

    【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

    《美团机器学习实践》_美团算法团队.pdf

    《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

    特征提取与图像处理(第二版).pdf

    python就业班学习视频,从入门到实战项目

    2019最新《PyTorch自然语言处理》英、中文版PDF+源码

    《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

    《深度学习之pytorch》pdf+附书源码

    PyTorch深度学习快速实战入门《pytorch-handbook》

    【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

    《Python数据分析与挖掘实战》PDF+完整源码

    汽车行业完整知识图谱项目实战视频(全23课)

    李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

    笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

    《神经网络与深度学习》最新2018版中英PDF+源码

    将机器学习模型部署为REST API

    FashionAI服装属性标签图像识别Top1-5方案分享

    重要开源!CNN-RNN-CTC 实现手写汉字识别

    yolo3 检测出图像中的不规则汉字

    同样是机器学习算法工程师,你的面试为什么过不了?

    前海征信大数据算法:风险概率预测

    【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

    VGG16迁移学习,实现医学图像识别分类工程项目

    特征工程(一)

    特征工程(二) :文本数据的展开、过滤和分块

    特征工程(三):特征缩放,从词袋到 TF-IDF

    特征工程(四): 类别特征

    特征工程(五): PCA 降维

    特征工程(六): 非线性特征提取和模型堆叠

    特征工程(七):图像特征提取和深度学习

    如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

    Machine Learning Yearning 中文翻译稿

    蚂蚁金服2018秋招-算法工程师(共四面)通过

    全球AI挑战-场景分类的比赛源码(多模型融合)

    斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

    python+flask搭建CNN在线识别手写中文网站

    中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

    不断更新资源

    深度学习、机器学习、数据分析、python

     搜索公众号添加: datayx  

    QQ群 

    333972581

    展开全文
  • PHP面试问答 ...本仓库将持续更新,fork 无法看到最新内容,建议 Watch 或 Star ~~ 温馨提示 分享面试遇到的问题,通过提交 Issue 参与项目内容完善,通过提交 ...什么是心跳机制 什么是长连接 数据结构与算法篇 概述 实现
  • 揭开知识库问答KB-QA的面纱1·简介篇

    千次阅读 2018-05-10 14:33:45
    内容速览什么是知识库(knowledge base, KB)什么是知识库问答(knowledge base question answering, KB-QA)知识库问答的主流方法知识库问答的数据集什么是知识库“奥巴马出生在火奴鲁鲁。”“姚明中国人。”...

    内容速览

    • 什么是知识库(knowledge base, KB)
    • 什么是知识库问答(knowledge base question answering, KB-QA)
    • 知识库问答的主流方法
    • 知识库问答的数据集

    什么是知识库

    “奥巴马出生在火奴鲁鲁。”

    “姚明是中国人。”

    “谢霆锋的爸爸是谢贤。”

    这些就是一条条知识,而把大量的知识汇聚起来就成为了知识库。我们可以在wiki百科,百度百科等百科全书查阅到大量的知识。然而,这些百科全书的知识组建形式是非结构化自然语言,这样的组织方式很适合人们阅读但并不适合计算机去处理。为了方便计算机的处理和理解,我们需要更加形式化、简洁化的方式去表示知识,那就是三元组(triple)

    “奥巴马出生在火奴鲁鲁。” 可以用三元组表示为 (BarackObama, PlaceOfBirth, Honolulu)。

    这里我们可以简单的把三元组理解为 (实体entity,实体关系relation,实体entity),进一步的,如果我们把实体看作是结点,把实体关系(包括属性,类别等等)看作是一条边,那么包含了大量三元组的知识库就成为了一个庞大的知识图。

    知识库可以分为两种类型,一种是以Freebase,Yago2为代表的Curated KBs,它们从维基百科和WordNet等知识库中抽取大量的实体及实体关系,可以把它们理解为是一种结构化的维基百科,被google收购的Freebase中包含了上千万个实体,共计19亿条triple。

    值得一提的是,有时候会把一些实体称为topic,如Justin Bieber。实体关系也可分为两种,一种是属性property,一种是关系relation。如下图所示,属性和关系的最大区别在于,属性所在的三元组对应的两个实体,常常是一个topic和一个字符串,如属性Type/Gender,对应的三元组(Justin Bieber, Type, Person),而关系所在的三元组所对应的两个实体,常常是两个topic。如关系Place_of_Brith,对应的三元组(Justin Bieber, Place_of_brith,London)

    (图中蓝色方块表示topic,橙色椭圆包括属性值,它们都属于知识库的实体,蓝色直线表示关系,橙色直线表示属性,它们都统称为知识库的实体关系,都可以用三元组刻画实体关系和实体)


    但是,像维基百科这样的知识库,与整个互联网相比,仍只能算沧海一粟。知识库的另外一种类型,则是以Open Information Extraction (Open IE), Never-Ending Language Learning (NELL) 为代表的Extracted KBs,它们直接从上亿个网页中抽取实体关系三元组。与Freebase相比,这样得到的知识更加具有多样性,而它们的实体关系和实体更多的则是自然语言的形式,如“奥巴马出生在火奴鲁鲁。” 可以被表示为(“Obama”, “was also born in”, “ Honolulu”),当然,直接从网页中抽取出来的知识,也会存在一定的noisy,其精确度要低于Curated KBs。


    Extracted KBs 知识库涉及到的两大关键技术是

    1. 实体链指(Entity linking) ,即将文档中的实体名字链接到知识库中特定的实体上。它主要涉及自然语言处理领域的两个经典问题实体识别 (Entity Recognition) 与实体消歧 (Entity Disambiguation),简单地来说,就是要从文档中识别出人名、地名、机构名、电影等命名实体。并且,在不同环境下同一实体名称可能存在歧义,如苹果,我们需要根据上下文环境进行消歧。
    2. 关系抽取 (Relation extraction),即将文档中的实体关系抽取出来,主要涉及到的技术有词性标注 (Part-of-Speech tagging, POS),语法分析,依存关系树 (dependency tree) 以及构建SVM、最大熵模型等分类器进行关系分类等。

    什么是知识库问答

    知识库问答(knowledge base question answering,KB-QA)即给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。如下图所示

    (注:该图片来自中科院刘康老师在知识图谱与问答系统前沿技术研讨会中的报告)


    与对话系统、对话机器人的交互式对话不同,KB-QA具有以下特点:

    1. 答案:回答的答案是知识库中的实体或实体关系,或者no-answer(即该问题在KB中找不到答案),当然这里答案不一定唯一,比如 中国的城市有哪些 。而对话系统则回复的是自然语言句子,有时甚至需要考虑上下文语境。
    2. 评价标准:回召率 (Recall),精确率 (Precision) ,F1-Score。而对话系统的评价标准以人工评价为主,以及BLEU和Perplexity。

    当我们在百度询问 2016年奥斯卡最佳男主角 时,百度会根据知识库进行查询和推理,返回答案,这其实就是KB-QA的一个应用。

    (注:该图片来自百度搜索)

    知识库问答的主流方法

    关于KB-QA的方法,个人认为,传统的主流方法可以分为三类:

    • 语义解析(Semantic Parsing):该方法是一种偏linguistic的方法,主体思想是将自然语言转化为一系列形式化的逻辑形式(logic form),通过对逻辑形式进行自底向上的解析,得到一种可以表达整个问题语义的逻辑形式,通过相应的查询语句(类似lambda-Caculus)在知识库中进行查询,从而得出答案。下图红色部分即逻辑形式,绿色部分where was Obama born 为自然语言问题,蓝色部分为语义解析进行的相关操作,而形成的语义解析树的根节点则是最终的语义解析结果,可以通过查询语句直接在知识库中查询最终答案。

    (注:该图片来自Semantic Parsing on Freebase from Question-Answer Pairs

    这里给出语义解析方法的一些代表论文

    Berant J, Chou A, Frostig R, et al. Semantic Parsing on Freebase from Question-Answer Pairs[C]//EMNLP. 2013, 2(5): 6.

    Cai Q, Yates A. Large-scale Semantic Parsing via Schema Matching and Lexicon Extension[C]//ACL (1). 2013: 423-433.

    Kwiatkowski T, Choi E, Artzi Y, et al. Scaling semantic parsers with on-the-fly ontology matching[C]//In Proceedings of EMNLP. Percy. 2013.

    Fader A, Zettlemoyer L, Etzioni O. Open question answering over curated and extracted knowledge bases[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014: 1156-1165.

    • 信息抽取(Information Extraction):该类方法通过提取问题中的实体,通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图,子图中的每一个节点或边都可以作为候选答案,通过观察问题依据某些规则或模板进行信息抽取,得到问题特征向量,建立分类器通过输入问题特征向量对候选答案进行筛选,从而得出最终答案。信息抽取的代表论文Yao X, Van Durme B. Information Extraction over Structured Data: Question Answering with Freebase[C]//ACL (1). 2014: 956-966.
    • 向量建模(Vector Modeling): 该方法思想和信息抽取的思想比较接近,根据问题得出候选答案,把问题和候选答案都映射为分布式表达(Distributed Embedding),通过训练数据对该分布式表达进行训练,使得问题和正确答案的向量表达的得分(通常以点乘为形式)尽量高,如下图所示。模型训练完成后则可根据候选答案的向量表达和问题表达的得分进行筛选,得出最终答案。

    (注:该图片来自论文Question answering with subgraph embeddings

    向量建模方法的代表论文

    Bordes A, Chopra S, Weston J. Question answering with subgraph embeddings[J]. arXiv preprint arXiv:1406.3676, 2014.

    Yang M C, Duan N, Zhou M, et al. Joint Relational Embeddings for Knowledge-based Question Answering[C]//EMNLP. 2014, 14: 645-650.

    Bordes A, Weston J, Usunier N. Open question answering with weakly supervised embedding models[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer Berlin Heidelberg, 2014: 165-180.

    细心的朋友已经发现了,以上三种方法的代表论文都集中在13-14年。那么14年之后KB-QA的主流方法是什么呢?


    随着深度学习(Deep Learning)在自然语言处理领域的飞速发展,从15年开始,开始涌现出一系列基于深度学习的KB-QA文章,通过深度学习对传统的方法进行提升,取得了较好的效果,比如:

    使用卷积神经网络向量建模方法进行提升:

    Dong L, Wei F, Zhou M, et al. Question Answering over Freebase with Multi-Column Convolutional Neural Networks[C]//ACL (1). 2015: 260-269.

    使用卷积神经网络语义解析方法进行提升:

    Yih S W, Chang M W, He X, et al. Semantic parsing via staged query graph generation: Question answering with knowledge base[J]. 2015.

    (注 该paper来自微软,是ACL 2015年的Outstanding paper,也是目前KB-QA效果最好的paper之一)

    使用长短时记忆网络(Long Short-Term Memory,LSTM),卷积神经网络(Convolutional Neural Networks,CNNs)进行实体关系分类:

    Xu Y, Mou L, Li G, et al. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths[C]//EMNLP. 2015: 1785-1794.

    Zeng D, Liu K, Lai S, et al. Relation Classification via Convolutional Deep Neural Network[C]//COLING. 2014: 2335-2344.(Best paper)

    Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]//EMNLP. 2015: 1753-1762.

    使用记忆网络(Memory Networks),注意力机制(Attention Mechanism)进行KB-QA:

    Bordes A, Usunier N, Chopra S, et al. Large-scale simple question answering with memory networks[J]. arXiv preprint arXiv:1506.02075, 2015.

    Zhang Y, Liu K, He S, et al. Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information[J]. arXiv preprint arXiv:1606.00979, 2016.

    以上论文几乎都使用了Freebase作为knowledge base,并且在WebQuestion数据集上进行过测试,这里给出各种方法的效果对比图,给大家一个更加直观的感受。

    (注:该图片来自中科院刘康老师在知识图谱与问答系统前沿技术研讨会中的报告)


    知识库问答的数据集

    最后,我们再简单地介绍一下KB-QA问题的Benchmark数据集——WebQuestion。

    该数据集由Berant J, Chou A, Frostig R, et al.在13年的论文Semantic Parsing on Freebase from Question-Answer Pairs中公开。

    作者首先使用Google Suggest API获取以wh-word(what,who,why,where,whose...)为开头且只包含一个实体的问题,以“where was Barack Obama born?”作为问题图谱的起始节点,以Google Suggest API给出的建议作为新的问题,通过宽度优先搜索获取问题。具体来讲,对于每一个队列中的问题,通过对它删去实体,删去实体之前的短语,删去实体之后的短语形成3个新的query,将这三个新query放到google suggest中,每个query将生成5个候选问题,加入搜索队列,直到1M个问题被访问完。如下图所示

    (注:该图片来自Google Suggest)

    获取完问题后,随机选取100K个问题交给Amazon Mechanical Turk (AMT)的工人,让工人回答答案。注意,这里对答案进行了限制,让AMT的工人只能把答案设置为Freebase上的实体(entity),实体列表,值(value)或者no-answer。

    最终,得到了5,810组问题答案对,其词汇表包含了4,525个词。并且,WebQuestion还提供了每个答案对应知识库的主题节点(topic node)。

    可以看出WebQuestion的问题与freebase是不相关的,更加偏向自然语言,也更多样化。这里给出一些例子


    “What is James Madison most famous for?”


    “What movies does Taylor Lautner play in?”

    “What music did Beethoven compose?”


    “What kind of system of government does the United States have?”

    除了该数据集,这里再补充一些其他数据集的信息,如下图所示:

    (注:该图片来自中科院刘康老师在知识图谱与问答系统前沿技术研讨会中的报告)


    下篇预告

    在接下来的文章中,我们会为大家对以上提到的主流方法和代表文章进行解读分析和讨论,一步步为大家揭开KB-QA的面纱。

    下期,我们将从传统方法语义解析开始,介绍一个经典的baseline,来自斯坦福的Berant J, Chou A, Frostig R, et al. Semantic Parsing on Freebase from Question-Answer Pairs[C]//EMNLP. 2013, 2(5): 6.


    该文章是语义解析的经典代表作,也提供了Benchmark数据集WebQuestion,敬请期待。


    https://zhuanlan.zhihu.com/p/25735572

    展开全文
  • 智能问答开源 Grant IngersollFusion的提供者Lucidworks的CTO,但他对开源社区的要求他对Apache Lucene,Solr和Mahout的贡献。 (他于2008年共同创立了Apache Mahout ,其目标构建一个环境,以快速创建可扩展...

    智能问答开源

    Grant Ingersoll是Fusion的提供者Lucidworks的CTO,但他对开源社区的要求是他对Apache Lucene,Solr和Mahout的贡献。 (他于2008年共同创立了Apache Mahout ,其目标是构建一个环境,以快速创建可扩展的机器学习应用程序。)今年,Grant将在OSCON 2015上发表演讲,内容涉及使用开源工具构建下一代QA系统以及如何将Apache Solr用于数据科学

    如果您对Watson如何击败所有的Jeopardy竞争者感兴趣,请在本采访中阅读更多有关问题解答(QA)技术的信息。

    现在有几个特别创新地使用问答系统的例子? 是否有一些项目使您认为“我希望我首先想到这一点”?

    我们可能已经将其视为理所当然,而且只有短短的几年时间,但是当Siri和Google Now之类的公司能够在您的电话上为您提供答案的能力时,我就被震撼了,因为它们结合并优雅(大部分情况下),要想在问答系统中拥有良好的用户体验,就需要进行很多事情。

    我认为现在很多努力都在研究如何使这些系统更准确,更能回答各种各样的问题。

    OSCON吸引了各种各样使用开源技术的人们。 什么样的与会者会从您的演讲中获得最大的兴奋?

    我的两个演讲(“您有问题”和“数据科学专业”)都是针对没有QA或Apache Solr经验的技术人员而设计的。 开发人员可能会从会议中获得最大收益,但是两个讲座的目的都是展示和讨论技术背后的概念以及它们在堆栈中的位置。

    您将要讨论构建下一代QA系统。 问答技术的“下一个”是什么?

    大多数情况下,更大,更好,更快。 这些系统可以回答的问题类型还很早,但是鉴于机器学习和人工智能的最新进展,这些系统可以处理的任务的复杂性正在Swift增加。 正如我上面提到的,我会说大部分的努力是使它们具有更高的质量并能够处理更多种问题。 目前,这些系统大多数都集中在不太复杂的答案上(至少相对于我们人类如何回答问题),但是也许有一天,他们将能够回答更复杂的问题,例如我们都喜欢的“比较和对比”类型高中这么多。

    在不放弃您的整个演讲的情况下,请向我们详细介绍该系统,该系统能够回答您计划演示的真实自然语言问题。

    这次演讲主要是摘自我的书籍Taming Text的示例。 该系统使用Solr,OpenNLP和我们为本书编写的几百行代码构建(可在GitHub上使用)。 它专注于回答基于事实的问题,例如“谁是美国总统。”旨在展示这些概念而又不费吹灰之力。

    OSCON
    演讲者访谈

    本文是OSCON 2015 演讲者访谈系列的一部分。OSCON是所有开源内容,包括完整的堆栈,以及您每天在工作中使用的所有语言,工具,框架和最佳实践。 OSCON 2015将于7月20日至24日在俄勒冈州波特兰举行。

    翻译自: https://opensource.com/life/15/7/interview-grant-ingersoll-lucidworks

    智能问答开源

    展开全文
  • 内容速览语义解析方法的再思考什么是查询图查询图的阶段生成各阶段的特征论文实验与总结在上期,我们介绍了深度学习对传统向量建模KB-QA方法进行提升的一篇代表论文,可以看出它的效果击败了当时所有的传统方法。...

    内容速览

    • 语义解析方法的再思考
    • 什么是查询图
    • 查询图的阶段生成
    • 各阶段的特征
    • 论文实验与总结

    在上期,我们介绍了深度学习对传统向量建模KB-QA方法进行提升的一篇代表论文,可以看出它的效果击败了当时所有的传统方法。本期,我们将以深度学习提升语义解析方法的一篇代表作为例,作为深度学习篇的中篇,为大家进一步揭开知识库问答的面纱。

    我们在揭开知识库问答KB-QA的面纱2·语义解析篇中介绍了传统方法之一的语义解析(Semantic Parsing)方法,该方法相比向量建模方法有更强的解释性,具有一定的推理能力。今天,我们将介绍一篇利用深度学习对该语义解析方法进行提升的论文,来自Microsoft公司的Semantic Parsing via Staged Query Graph Generation:Question Answering with Knowledge Base(文章发表于2015年的ACL会议,是当年的Outstanding Paper)。

    该文章分析了传统语义解析方法的不足,受信息抽取和向量建模方法的启发,将语义解析过程转化成查询图(Query graph)分阶段生成的过程,使用了卷积神经网络来提升自然语言到知识库关系的映射。该方法在WebQuestion数据集上测试,取得了52.5的F1-score,该性能远超当时的所有方法。

    语义解析方法的再思考

    让我们先回想一下传统的语义解析方法,它的思想是把自然语言问题转化为逻辑形式,通过逻辑形式转化为查询语句,在知识库中查询得出最终答案。在进行语义解析生成逻辑形式的过程中,主要是在提取自然语言问题中的信息和利用训练好的语法解析器进行解析,这一过程几乎没有使用到知识库里的信息。而在向量建模和信息抽取方法中,我们不仅对问题进行了特征提取,还借助知识库确定了候选答案范围(相比语义解析中的词汇映射要在大范围的知识库实体关系中寻找映射,这样的方式使得搜索范围大大减小),并将候选答案在知识库中的信息作为特征。相比之下,可以看出传统的语义解析方法和知识库本身的联系是不够紧密的(Decoupled from KB),也就是说,传统语义解析方法对知识库的利用还不够

    再看看语义解析的第一步,词汇映射(Lexicon)。要将自然语言中的谓语关系映射到知识库中的实体关系,是一件很困难的事情,仅仅通过统计方式进行映射,效果并不好。如果我们能考虑知识库的信息,是不是能将词汇映射的范围缩小?使用深度学习的办法通过分布式表达来代替基于统计方法的词汇映射,会不会取得更好的效果?

    在语义解析的过程中,如何更好的去利用知识库的知识,缩小语义解析树的搜索范围,并获取更多有益的特征信息?就让我们带着疑问,看一下本文的作者是如何解决这些问题的。

    什么是查询图

    我们来考虑这样一个问句“Who first voiced Meg on Family Guy?" (谁是第一个为Family Guy里的MegGriffin角色配音的人,注:Family Guy是美国的一部动画片,MegGriffin是其中的一个角色,有两个人先后为其配音过)


    可以看出,这个问题是有一定难度的,我们在前一期谈到,对于深度学习的向量建模法来说,first这种时序敏感(Time-Aware)词常常会被模型忽略而得出错误答案。语义解析方法可以将first解析为逻辑形式的聚合函数(arg min),但它又难以将问题中的Meg这一缩写词通过词汇表映射为知识库中的MegGriffin

    想一想我们人如果给定知识库会怎么去寻找答案?首先我们也许不知道Meg具体是指哪个角色,但是我们可以先去知识库里搜Family Guy,在它对应的知识库子图中搜索和Meg很接近的实体,也就是说我们一开始就借助知识库,帮我们缩小了范围,这样我们就很容易找到Meg其实对应的是MegGriffin。我们可以借助这样的思想来对我们的语义解析进行改进。

    为了更好的去利用知识库,我们用一种图的形式来代替语法解析树表示逻辑形式,这个图被称为查询图query graph)。

    问句“Who first voiced Meg on Family Guy?"对应的查询图如下图所示:

    查询图可以分为以下四个部分:

    知识库实体,在图中用圆角矩形表示。中间变量,在图中用白底圆圈表示。聚合函数,用菱形表示。lambda变量(答案),在图中用灰底圆圈表示。图中实体节点到答案变量的路径可以转化为一系列join操作,不同路径可以通过intersection操作结合到一起,因此,该查询图在不考虑聚合函数argmin的情况下可以转化为一个lambda表达式,即:\lambda x.\exists y.cast(FamilyGuy, y)  \wedge  actor(y,x) \wedge  character(y,MegGriffin)


    (如果你不懂 lambda表达式,没有关系,上式表示 我们要寻找x,使得在知识库中存在实体y,满足 1. y和FamilyGuy存在cast关系;2. y和x存在actor关系;3.y和MegGriffin存在character关系,这里我们可以把y想象成是一个中间变量,通过对它增加约束来缩小它的范围,通过它和答案x的关系来确定答案x)

    有了查询图,通过将其转化为lambda表达式就可以在知识库中查询得到答案。那么,如何去构造查询图呢?

    查询图的阶段生成

    我们先看看查询图的构成成分。

    问题中的主题词(可以看作是一个根节点)到答案变量的这条路径(如Family Guy - y - x)包含了所有的中间变量,这条路径可以看作是从问题到答案的一个核心推导过程,我们将其称作核心推导链(coreinferential chain)。

    而对于核心推导链里的中间变量,我们可以对它加一些约束(要求它与其他实体具有一定的关系,如 y - character -> Meg Griifin)和聚合函数(如 y - from -> arg min)。


    因此我们查询图的生成,可以分为以下几个步骤:确定主题词确定核心推导链,是否增加约束和聚合。整个过程可以用下面的这个有限状态机自动机表示:

    其中状态集合S=\{\phi,S_e,S_p,S_c\}分别表示空集、仅含主题词节点、含核心推导链、含约束节点。
    而动作集合A=\{A_e,A_p,A_a,A_c\}分别表示选择主题词节点、选择核心推导链、加入聚合函数、加入约束。

    因此我们查询图可以分阶段生成,这个生成的过程实质上是一个搜索。依照我们的有限状态自动机,根据图所处的状态s,我们可以确定在该状态下可以采取的动作的集合\Pi (s)(比如当前我们处在状态\phi,根据有限自动机我们的动作为选择主题词节点,假设检测出来问句中有3个主题词候选,那么我们的动作集合大小为3)。因此,我们的查询图生成实际上是一个搜索过程,如果对这个搜索不加任何限制,那么这个搜索是指数级复杂度的。因此对于每一个状态s,我们可以用奖励函数(reward function)对它进行评估,奖励函数\gamma得分越高表示这个状态对应的查询图和正确的语义解析表达越接近。我们用一个对数线性(log-linear)模型来学习奖励函数(这里涉及的一些概念不禁让人想起增强学习)。有了奖励函数,我们用best-first的策略利用优先队列进行启发式搜索,算法流程如下:


    其中T(s,a)代表在s状态下采取动作a后得到的新状态,我们将优先队列的大小N限制为1000。上述算法可以简单概括为:每次从队列中取出得分最高的状态分别执行动作集中的每一个动作生成一批新的状态并压入优先队列,始终记录得分最高的状态,最终将得分最高的状态作为最后的查询图。

    接下来,我们来看看每一种动作是怎么执行的,以及如何去构造奖励函数。我们依旧以问题“Who first voiced Meg on Family Guy?"为例。

    主题词链接

    我们的第一种动作(action),就是从问题中确定主题词,这个操作称为主题词链接(Linking Topic Entity)。作者使用了S-MART作为实体链接系统,该系统是针对带噪音的短文本设计的,适合用于对问句提取主题词,它会为相应的 实体-自然语言短语 链接对 给出链接得分(Linking Score)。我们最多保留得分最高的10个实体作为候选,第一步如图所示:

    核心推导链

    接下来,我们确定核心推导链。对于每一个候选的主题词,将它在知识库中对应的实体节点周围长度为1的路径(如下图s_5)和长度为2且包含CVT节点的路径(如下图s_3,s_4)作为核心推导链的候选(CVT,即复合值类型 Compound Value Types,是freebase中用于表示复杂数据而引入的概念,不了解的朋友可以点击该链接)。如下图:

    核心推导链其实就是将自然语言问题映射为一个谓语序列(如cast-actor),因此我们可以用卷积神经网络来对这个映射进行打分,如下图所示:

    我们将自然语言和谓语序列分别作为输入,分别经过两个不同的卷积神经网络得到一个300维的分布式表达,利用表达向量之间的相似度距离(如cosine距离)计算自然语言和谓语序列的语义相似度得分。由于我们上期我们已对卷积神经网络做过介绍,因此这里我们对它不再赘述。需要注意的是,这里的输入采用的是字母三元组(letter-trigram)的方式,这是一个非常有趣的方式,类似于character-CNN。每个单词都将它拆分成几个 字母三元组,作为CNN的输入。比如单词who可以拆为#-w-h,w-h-o,h-o-#。每个单词通过前后添加符号#来区分单词界限(并且单词最短只含一个字母,添加两个#可以保证能形成至少一个字母三元组)

    采用字母三元组的好处在于:1.减小输入维度,这样输入维度可以稳定在字母集大小+1(#号)的三次方,即27^3,而不是字典大小(同时可以处理一些字典中不存在的词和一些低频词,如缩写词等等)。2.相同语义的词语可能因为词根等缘故,前缀或者后缀会比较相似,这样能更好的提取单词语义的特征。3.对于现实生活中的用户,有时候可能会发生单词拼写错误,但错误拼写不会对这种输入方式造成太大影响。

    增加约束和聚合函数

    我们通过增加约束和聚合函数的方式扩展查询图,缩小答案的范围,以增加准确率,如下图

    如何去增加约束和聚合函数呢?作者采用了基于一些简单规则的方式,比如当实体链接检测到句子中出现其他实体,那么我们可以增加一个约束。又比如句子中出现了first等时序敏感词,我们可以增加聚合节点。具体来说,根据以下规则确定是否要为CVT节点添加约束节点或者聚合节点


    1.约束实体出现在问句中

    2.约束谓词表示事件的结束时间,但没有值(这表示它是当前事件)

    3.问题中出现约束实体名称的一些单词

    4.谓语是people.marriage.type_of_union(这说明关系是否是家庭伴侣关系、婚姻关系还是民事关系)

    5.问句中包含单词 first 或者 oldest,并且谓语是from形式的谓语(表明事件的起始时间)

    6.问句中包含单词 last, latestnewest ,并且谓语是to形式的谓语(表明事件的结束时间)

    而对于答案节点,如果包含以下之一的谓语,我们会添加一个约束节点

    people.person.gender / common.topic.notable types / common.topic.notable_for


    奖励函数的特征定义

    我们用对数线性模型训练奖励函数,因此我们要确定输入向量,和信息抽取以及传统语义解析方法一样,我们手工定义一个特征向量来表征整个查询图的信息,将它作为对数线性模型的输入。我们先来对特征有个主观上的感受,例如问题“Who first voiced Meg on Family Guy?” 对应的查询图,它的特征如下图所示:

    具体来说,我们从 主题词链接核心推导链增加约束聚合三个方面定义特征。

    a.主题词链接特征:实体链接得分(EntityLinkingScore),由实体链接系统给出。

    EntityLinkingScore(FamilyGuy,"Family Guy")=0.9

    b.核心推导链特征

    1.PatChain:将问句中的主题词替换为实体符号,和谓语序列同时输入两个不同的CNN,根据CNN输出的表达求语义相似度作为特征。

    如: PatChain("Who first voiced Meg on <e>", cast-actor) =0.7

    2.QuesEP:将谓语序列和主题词的规范名称(canonical name)连接(concatenate)起来作为输入,和问题求语义相似度。

    如: QuesEP(q,“family guy cast-actor”) = 0.6

    3.ClueWeb:用ClueWeb来训练一个更加in-domain的模型。如果一句话包含两个实体和谓语,那么就把这句话和谓语作为一组 数据对 输入模型进行训练。注意:ClueWeb的输入和PatChain是一样的,但是其模型是用不同数据训练的。

    从这定义的三个特征可以看出,这其实是一个ensemble模型,将三种模型的输出结果进行了一个log-linear组合。

    c.约束聚合特征:

    对于CVT节点有以下特征:

    1.约束实体是否出现在问句中 如ConstraintEntityInQ("Meg Griffin",q)=1

    2.是否是当前发生的事件

    3.是否是当前发生的事件,且问句中包含关键词“currently”,“current”, “now”, “present” 和“presently”

    4.约束实体单词出现在问句中的百分比 如ConstraintEntityWord("Meg Griffin",q)=0.5

    5.约束谓语的类型是people.marriage.type_of_union

    6.问题中是否包含“first” 或 “oldest” ,谓语是from形式谓语,并且CVT节点按该from性质排序是第一

    7.问题中是否包含“last”, “latest” 或 “newest” ,谓语是to形式谓语,并且CVT节点按该to性质排序是最后

    对于答案节点有以下特征:

    1.性别一致性(男性):约束谓语是gender,并且问句中出现了以下男性关键词中的一个{“dad”, “father”,“brother”, “grandfather”, “grandson”, “son”,“husband”}

    2.性别一致性(女性):约束谓语是gender,并且问句中出现了以下女性关键词中的一个{“mom”, “mother”,“sister”, “grandmother”, “granddaughter”,“daughter”, “wife”}

    3.当约束谓语是 notable_typesnotable_for 时,约束实体单词出现在问题中的百分比

    d.总体特征

    查询图对应的答案数量NumAns和查询图的节点数NumNodes

    模型学习

    在信息抽取中,我们的模型是在进行二分类(根据特征向量判定候选答案是否是正确答案),而在本文中,我们对模型不进行二分类,而是根据查询图对应的实体和真实答案的F1-score进行排名。基于lambda-rank算法对一个一层的神经网络进行训练。这样做的好处是,有些查询图虽然查询得到的答案和真实答案不完全相同,但根据它的相同程度(F1-score)也可以说它比完全错误的查询图要好。

    论文实验与总结

    在训练数据上,通过实体链接系统确定候选实体,候选实体到正确答案的知识库路径(长度限制为2)作为核心推导链的正样本,错误查询图中的路径作为负样本。根据训练数据,作者生成了17,277个F1-score不为0的查询图(正样本)和1.7M完全错误的查询图(负样本)对卷积神经网络进行训练。

    对于奖励函数的训练,为每个问题生成了4000个样例(包含所有正确的查询图和随机选择的负样本)以F1-score作为排名标准来训练排名器(ranker)。


    该方法与当时的所有baseline进行了比较,效果如下


    可以看出该方法取得了相当大的提升,也因此获得了当年的Outstanding paper。

    本方法使用到了外部的实体链接系统,作者也比较了使用Freebase Search API时的性能,F1-score会下降约4.1。同时,作者也对核心推导链所涉及的三个特征的性能进行了比较,核心推导链三个特征的性能如下表:

    我们可以发现,其实只使用PatChain的性能就已经很好了(达到了惊人的49.6),原因是WebQuestion里50%的问题可以只是用核心推导链就可以得出正确答案。

    最后作者进行了错误分析,随机选择100个答错的问题,发现35%的错误来自核心推导链构建错误,23%来自约束错误,8%来自实体链接错误,剩下34%的错误来自于标签错误或不完整已经问题中的实体有歧义等。也就是说有34%的错误是数据的问题,这再一次显示出了该方法的强大。

    由于本期内容较多,我们再做一个快速的回顾:

    1.考虑到传统语义解析与KB结合不够紧密,作者提出了查询图的概念

    2.查询图的构造由实体链接系统确定主题词核心推导链,增加约束聚合这几种操作构成

    3.对于查询图的每一个状态,我们都用一个奖励函数对它进行评价,使用优先队列进行启发式搜索构建查询图

    4.通过查询图的实体链接得分核心推导链三个特征约束聚合手工特征以及全局特征作为输入向量,训练单层神经网络作为排名器得到奖励函数

    5.核心推导链使用卷积神经网络letter-trigram作为输入)进行训练,并且ensemble了三个不同数据训练的模型

    总的来说,我们可以看出,该方法几乎融合了传统语义解析、深度学习、信息抽取等方法的优点,还使用了部分手工特征(对数据进行了仔细观察和分析),确实是一个很令人惊叹的方法。

    在深度学习篇的中篇和上篇,我们可以看到都使用了卷积神经网络对模型进行提升。下一期,我们将进入深度学习篇的下篇,看如何使用更加复杂的深度学习模型进行KB-QA,为大家进一步揭开KB-QA的面纱。

    敬请期待。

    展开全文
  • 内容速览什么是语义解析(Semantic Parsing)什么是逻辑形式(Logic Form)语义解析KB-QA的方法框架实验结果本期我们从传统方法之一的语义解析(有时也被称为语义分析)开始,以一个经典的语义解析baseline方法为例...
  • Q:请教一下这里的上是什么意思呀?动作里的自动发现和菜单里的自动发现是相同的么? [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wx4KbDDV-1583379954477)(https://s1.51cto.com/im...
  • 内容速览什么是记忆网络基于记忆网络的KB-QA在上两期,我们分别介绍了使用深度学习的卷积神经网络对向量建模和语义解析方法进行提升的两篇经典论文。今天我们将为大家带来两篇使用深度学习其他两种经典模型进行KB-QA...
  • A:https://www.jianshu.com/p/d0910126e909 钉钉告警可以参考这篇文章,小米的网关 和 温湿度监控设备 具体是什么型号的呢? Q:米家卡巴他温湿度2 还有青苹多功能蓝牙网关 A:青萍蓝牙网关 目前只能连接米家app,...
  • Q:帮我看一下这个问题 A:prox找不到,查下网络或者conf文件 Q:网络没有问题啊 A:proxy 的hostname配置的正确么,配置文件跟web上要一致 ...但是我一直没有明白什么原因 昨天晚上我记得也这样做的 就是不...
  • Q:可以同时对一台主机进行zbx和snmp...Q:请问这是什么?经常过几天就来这么一下 6859:20190904:142633.292 item “CASHUB03:perf_counter[”\MSExchange Control Panel\PowerShell Runspaces - Activations/sec"]"...
  • QA派|初识GraphSAGE

    2020-08-15 19:53:09
    QA派|初识GraphSAGE 图网络中节点的低维embedding,对于各类预测、图分析任务都非常有用;相对于要求一整张图作为输入的GCN,能分批训练的GraphSAGE在工业界...GraphSAGE的基本思路是什么?跳数(hops)、搜索深度(se
  • ARC 问答

    千次阅读 2013-05-07 15:50:15
    原文:http://www.mikeash.com/pyblog/friday-qa-2011-09-30-automatic-reference-counting.htmlbyMike Ash 概念" Clangstatic analyzer "一个非常有用的查找代码中内存管理错误的工具。我在查看这个分析器的输出...
  • 知道问答机器人是什么 知道问答机器人实现的逻辑 1. 问答机器人 在前面的课程中,我们已经对问答机器人介绍过,这里的问答机器人是我们在分类之后,对特定问题进行回答的一种机器人。至于回答的问题的类型...
  • 当前我们需要实现的问答机器人是一个回答编程语言(比如python是什么,python难么等)相关问题的机器人 2. 问答机器人的实现逻辑 主要实现逻辑:从现有的问答对中,选择出和问题最相似的问题,并且获取其相似度(一...
  • 该任务提出了AMBIGQA,目的解决开放域问答系统问题答案模糊的任务。简单来说就是把消歧引入到了QA领域中,且open-domain的。 #举个例子 Q:《哈利波特:魔法石》什么时候上映的? Para:《哈利波特:魔法石》在...
  • KBQA 的概念/研究领域是什么? 概念 知识库问答(knowledge base question answering, KB-QA)即给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。 研究领域 具体的,从应用...
  • 据我们所知,这心理咨询领域首个开放的 QA 语料库,包括 20,000 条心理咨询数据,也公开的最大的中文心理咨询对话语料。数据集内容丰富,不但具备多轮对话内容,也有分类等信息,制作过程耗费大量时间和精力,...
  • 知识图谱学习笔记前言知识库概念知识库问答(knowledge base question answering,KB-QA)知识库问答的主流方法语义解析(Semantic Parsing)什么是逻辑形式:语义解析KB-QA的方法框架:信息抽取(Information ...
  • 问答系统分类简介

    2020-09-26 16:10:16
    谁了解贪心科技是什么时候成立的?? A:回答 文档一:贪心科技成立于2018年,主要专注于人工智能领域的教育,目前,国内人工智能人才缺口很明显,未来2-3年内这种趋势依然会存在 文档二:人工只能领域包括图像识别...
  • 它能够回答超级英雄真名的问题,例如“美国队长的真名是什么?”。 为此,仅使用了两个组件: a) :该组件能够找到超级英雄的名字并将其链接到(这种过程称为命名实体识别和消歧)。 b) :如果给定的问题遵循模板...
  • NLP的典型运用 机器翻译 自动摘要 文本分类和信息过滤 信息检索 自动问答 信息抽取与文本挖掘 情感分析 … ...机器翻译(Machine Translation) ...自动摘要(Text Summarization...自动问答(Question Answering,QA) ...
  • 开放域问答QA自然语言理解(NLU)中的基准任务,旨在模拟人类查找信息,通过阅读和理解整个文档来查找答案的过程。举例来说,对于一个用自然语言表达的问题(“为什么蓝色的?”),QA 系统应该能够做到在...
  • 可惜的目前这份资料集的噪声还有点大,若您有更好的方法能提取出文章的问答配对,或发现这份资料集有什么能改进的部份,还请与我联系,也祝各位开发顺利:> 资料说明 资料集一共有两份,您可于或是从本专案的data...
  • 前言 这些知识点基本本人在准备春招和秋招时做的笔记,东西比较杂,有的自己总结,有的参考网上博客,可能不是很准确,还望各位批评指正,多多交流。...3:句子关系判断:问答QA),语义改写(这个不太明白)
  • 基于BERT模型的知识库问答(KBQA)系统

    千次阅读 多人点赞 2019-11-24 17:36:40
    1、什么是知识库 “奥巴马出生在火奴鲁鲁。” “姚明中国人。” “谢霆锋的爸爸谢贤。” 这些就是一条条知识,而把大量的知识汇聚起来就成为了知识库。我们可以在wiki百科,百度百科等百科全书查阅到大量的...
  • # hint: 停用词用什么数据结构来存储? 不一样的数据结构会带来完全不一样的效率! def text_preprocessing(text): # 生成停用词和标准化 stopfile_path = r'C:\Users\Administrator\nltk_data\corpora\...
  • 据我们所知,这心理咨询领域首个开放的QA语料库,包括20,000条心理咨询数据,也公开的最大的中文心理咨询对话语料。数据集内容丰富,不但存在多轮对话内容,也有分类等信息,制作过程耗费大量时间和收益,标注...

空空如也

空空如也

1 2 3 4
收藏数 66
精华内容 26
关键字:

qa问答是什么