精华内容
下载资源
问答
  • 中文关系抽取 CAJ格式论文
  • 基于深度学习的中文关系抽取框架
  • 基于远监督的中文关系抽取
  • 在清华大学开源的OpenNRE项目基础上实现中文实体关系识别github项目地址,点我一、中文关系抽取使用哈工大,BERT-wwm,中文bert,在20w中文人物关系数据上的准确率达到0.97实现过程实现过程十分简单,如下:1)token...

    在清华大学开源的OpenNRE项目基础上实现中文实体关系识别

    github项目地址,点我


    一、中文关系抽取

    使用哈工大,BERT-wwm,中文bert,在20w中文人物关系数据上的准确率达到0.97

    实现过程

    实现过程十分简单,如下:

    1)token阶段:将文本根据两个实体位置分割成五个小片; 2)index阶段:文本开头使用[CLS],结尾使用[SEP],中间的分割使用[unused1-4]; 3)padding阶段:0填充,最大长度80; 4)attention mask,完成embedding; 5)通过bert模型; 6)全连接; 7)softmax。

    训练结果

    === Epoch 0 train === 100%|██████████████████████████████████████████████████████████████████| 3094/3094 [40:12<00:00, 1.28it/s, acc=0.773, loss=0.687] === Epoch 0 val === 100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [00:06<00:00, 2.42it/s, acc=0.934] Best ckpt and saved. === Epoch 1 train === 100%|██████████████████████████████████████████████████████████████████| 3094/3094 [38:17<00:00, 1.35it/s, acc=0.923, loss=0.235] === Epoch 1 val === 100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [00:05<00:00, 2.78it/s, acc=0.972] Best ckpt and saved. === Epoch 2 train === 100%|██████████████████████████████████████████████████████████████████| 3094/3094 [22:43<00:00, 2.27it/s, acc=0.961, loss=0.121] === Epoch 2 val === 100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [00:05<00:00, 2.71it/s, acc=0.986] Best ckpt and saved. Best acc on val set: 0.986000 100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [00:06<00:00, 2.64it/s, acc=0.986] Accuracy on test set: 0.986

    测试结果

    model.infer({'text': '场照片事后将发给媒体,避免采访时出现混乱,[3]举行婚礼侯佩岑黄伯俊婚纱照2011年4月17日下午2点,70名亲友见 证下,侯佩', 'h': {'pos': (28, 30)}, 't': {'pos': (31, 33)}})

    ('夫妻', 0.9995878338813782)

    model.infer({'text': '及他们的女儿小苹果与汪峰感情纠葛2004年,葛荟婕在欧洲杯期间录制节目时与汪峰相识并相恋,汪峰那首《我如此爱你', 'h': {'pos': (10, 11)}, 't': {'pos': (22, 24)}})

    ('情侣', 0.9992896318435669)

    model.infer({'text': '14日,彭加木的侄女彭丹凝打通了彭加木儿子彭海的电话,“堂哥已经知道了,他说这些年传得太多,他不相信是真的', 'h': {'pos': (4, 6)}, 't': {'pos': (22, 21)}})

    ('父母', 0.8954808712005615)

    model.infer({'text': '名旦吴菱仙是位列“同治十三绝”的名旦时小福的弟子,算得梅兰芳的开蒙老师,早年曾搭过梅巧玲的四喜班,旧谊', 'h': {'pos': (2, 4)}, 't': {'pos': (27, 29)}})

    ('师生', 0.996309220790863)

    二、使用前准备

    1.bert模型下载:在./pretrain/下面放置chinese_wwm_pytorch模型,下载地址:https://github.com/ymcui/Chinese-BERT-wwm

    2.数据下载:在./benchmark/people-relation/下执行gen.py,生产中文人物关系数据,具体脚本中有说明。

    3.配置环境变量:vim ~/.bash_profile 添加

    # openNRE
    
    export openNRE=项目位置

    三、注意事项

    如果自己训练了tensorflow 的bert,可以通过https://github.com/huggingface/transformers 里面的convert_bert_original_tf_checkpoint_to_pytorch.py 脚本转换为pytorch版。

    踩坑记录:

    1.安装tensorflow 2.0,最终用的都是PyTorch模型,但TensorFlow也得安装

    2.构造checkpoint文件

    3.报错:Embedding' object has no attribute 'shape' ,解决:将报错位置assert那几行直接删除


    展开全文
  • 此代码主要是基于深度学习的中文关系抽取模型,希望帮助大家
  • 基于多实例多标签BLSTM神经网络的中文关系抽取,唐慧,欧阳柳波,最近,深度学习模型已经成为关系提取的最先进方法,然而关于中文关系提取的研究工作却很少。本文针对中文关系抽取面临的词语之间无�
  • 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayxDeepKEDeepKE 是基于 Pytorch 的深度学习中文关系抽取处理套件。环...


    向AI转型的程序员都关注了这个号????????????

    机器学习AI算法工程   公众号:datayx

    DeepKE

    DeepKE 是基于 Pytorch 的深度学习中文关系抽取处理套件。

    环境依赖:

    python >= 3.6

    • torch >= 1.2

    • hydra-core >= 0.11

    • tensorboard >= 2.0

    • matplotlib >= 3.1

    • transformers >= 2.0

    • jieba >= 0.39

    中文关系抽取

    1. 基于 CNN 的关系抽取模型

    2. 基于 BiLSTM 的关系抽取模型

    3. 基于 PCNN 的远程监督关系抽取模型

    4. 基于 Capsule 的关系抽取模型

    5. 基于 Transformer 的关系抽取模型

    6. 基于 GCN 的关系抽取模型

    7. 基于 BERT 语言预训练模型的关系抽取模型

    代码 以及运行教程  获取:

    关注微信公众号 datayx  然后回复  抽取  即可获取。

    AI项目体验地址 https://loveai.tech

    快速开始

    数据为 csv 文件,样式范例为:

    • 安装依赖: pip install -r requirements.txt

    • 存放数据:在 data/origin 文件夹下存放训练数据。训练文件主要有三个文件。更多数据建议使用百度数据库中Knowledge Extraction。

      • train.csv:存放训练数据集

      • valid.csv:存放验证数据集

      • test.csv:存放测试数据集

      • relation.csv:存放关系种类

    • 开始训练:python main.py

    • 每次训练的日志保存在 logs 文件夹内,模型结果保存在 checkpoints 文件夹内


    阅读过本文的人还看了以下文章:

    TensorFlow 2.0深度学习案例实战

    基于40万表格数据集TableBank,用MaskRCNN做表格检测

    《基于深度学习的自然语言处理》中/英PDF

    Deep Learning 中文版初版-周志华团队

    【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

    《美团机器学习实践》_美团算法团队.pdf

    《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

    特征提取与图像处理(第二版).pdf

    python就业班学习视频,从入门到实战项目

    2019最新《PyTorch自然语言处理》英、中文版PDF+源码

    《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

    《深度学习之pytorch》pdf+附书源码

    PyTorch深度学习快速实战入门《pytorch-handbook》

    【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

    《Python数据分析与挖掘实战》PDF+完整源码

    汽车行业完整知识图谱项目实战视频(全23课)

    李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

    笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

    《神经网络与深度学习》最新2018版中英PDF+源码

    将机器学习模型部署为REST API

    FashionAI服装属性标签图像识别Top1-5方案分享

    重要开源!CNN-RNN-CTC 实现手写汉字识别

    yolo3 检测出图像中的不规则汉字

    同样是机器学习算法工程师,你的面试为什么过不了?

    前海征信大数据算法:风险概率预测

    【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

    VGG16迁移学习,实现医学图像识别分类工程项目

    特征工程(一)

    特征工程(二) :文本数据的展开、过滤和分块

    特征工程(三):特征缩放,从词袋到 TF-IDF

    特征工程(四): 类别特征

    特征工程(五): PCA 降维

    特征工程(六): 非线性特征提取和模型堆叠

    特征工程(七):图像特征提取和深度学习

    如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

    Machine Learning Yearning 中文翻译稿

    蚂蚁金服2018秋招-算法工程师(共四面)通过

    全球AI挑战-场景分类的比赛源码(多模型融合)

    斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

    python+flask搭建CNN在线识别手写中文网站

    中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

    不断更新资源

    深度学习、机器学习、数据分析、python

     搜索公众号添加: datayx  


    机大数据技术与机器学习工程

     搜索公众号添加: datanlp

    长按图片,识别二维码

    展开全文
  • 本文转载自:用Bi-GRU和字向量做端到端的中文关系抽取 代码在: Information-Extraction-Chinese 实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。关系抽取可以简单理解为一个分类问题:给定...

    本文转载自:用Bi-GRU和字向量做端到端的中文关系抽取

    代码在: Information-Extraction-Chinese

    实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。关系抽取可以简单理解为一个分类问题:给定两个实体和两个实体共同出现的句子文本,判别两个实体之间的关系。

    使用CNN或者双向RNN加Attention的深度学习方法被认为是现在关系抽取state of art的解决方案。已有的文献和代码,大都是针对英文语料,使用词向量作为输入进行训练。这里以实践为目的,介绍一个用双向GRU、字与句子的双重Attention模型,以天然适配中文特性的字向量(character embedding)作为输入,网络爬取数据作为训练语料构建的中文关系抽取模型。

    代码主要是基于清华的开源项目thunlp/TensorFlow-NRE开发,感谢!

    双向GRU加Dual Attention模型

    双向GRU加字级别attention的模型想法来自文章 “Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification” [Zhou et al.,2016]。这里将原文的模型结构中的LSTM改为GRU,且对句子中的每一个中文字符输入为character embedding。这样的模型对每一个句子输入做训练,加入字级别的attention。

    句子级别attention的想法来自文章 “Neural Relation Extraction with Selective Attention over Instances” [Lin et al.,2016]。原文模型结构图如下,这里将其中对每个句子进行encoding的CNN模块换成上面的双向GRU模型。这样的模型对每一种类别的句子输入做共同训练,加入句子级别的attention。

    语料获取

    中文关系抽取的公开语料比较少。我们从distant supervision的方法中获取灵感,希望可以首先找到具有确定关系的实体对,然后再去获取该实体对共同出现的语句作为正样本。负样本则从实体库中随机产生没有关系的实体对,再去获取这样实体对共同出现的语句。

    对于具有确定关系的实体对,我们从复旦知识工厂得到,感谢他们提供的免费API!一个小问题是,相同的关系label在复旦知识工厂中可能对应着不同的标注,比如“夫妻”,抓取到的数据里有的是“丈夫”,有的是“妻子”,有的是“伉俪”等等,需要手动对齐。

    得到实体对,获取实体对共同出现的语句,我们直接借助百度、搜狐、360等的新闻搜素功能,抓取实体对共同出现的新闻在搜索列表中的摘要。

    我们还从一个开源项目Roshanson/TextInfoExp中获取了不少关系抽取语料。感谢!

    模型训练

    下面进入实战,Clone和运行中文关系抽取项目.

    系统要求:

    • Python (>=3.5) 一定要用Python 3。因为编码问题,Python 2对中文太不友好。

    • TensorFlow (>=r1.0) Tensorflow几个月一个大变样,对<1.0暂不支持。不过清华Thunlp的原始代码是旧版的Tensorflow,对旧版TF仍然执迷不悟念念不忘的朋友们可以去参考。

    • scikit-learn (>=0.18)

    训练:

    1.所有数据准备在 origin_data/ 中, 包括了关系种类 (relation2id.txt), 训练数据 (train.txt), 测试数据 (test.txt) and 中文字向量 (vec.txt). 中文字向量是在中文wikipedia上训练的。训练数据和测试数据是将原始数据随机排序,然后按大概80%做训练,20%做测试的方法分开。更好的方法是再加入验证数据,但是训练一个epoch已经好长时间,就偷个懒不搞k-fold什么的了。。。

    现有的数据包含以下12种关系种类:
    unknown, 父母, 夫妻, 师生, 兄弟姐妹, 合作, 情侣, 祖孙, 好友, 亲戚, 同门, 上下级
    

    2.将所有数据通过字向量整理成numpy的形式,存储在 data/

    python initial.py
    

    3.进行训练,模型会存储在 model/。并没有怎么仔细调节超参数,模型结构除了字向量的输入以外,也是完全照搬英文版的模型。感兴趣的朋友们以这个结果为baseline可以尝试调出更好的模型参数。

    python train_GRU.py
    

    预测:

    python test_GRU.py
    

    代码中有两个main函数。第一个main函数是用测试数据来测试准确率的(我的实验大概70%左右),第二个则是供用户输入数据进行inference。程序会在command line中提示输入”name1 name2 sentence”格式的测试数据。

    一些结果

    我们请来王大牛和李晓华两位同学来做角色扮演,测试了一些例子。

    可以看到模型给出的结果还是蛮有趣的,有一些错误,但也是“情有可原”的合理。

    回顾整个过程,对于中文关系提取这个比较复杂的任务,我们的方法完全没有构造n-gram、词性、依存句法等复杂特征,使用深度学习模型,甚至不需要中文分词,只依靠字向量和大量训练语料就得到了一个效果不错的端到端模型。

    INFO:tensorflow:Restoring parameters from ./model/ATT_GRU_model-9000
    reading word embedding data...
    reading relation to id
    
    实体1: 李晓华
    实体2: 王大牛
    李晓华和她的丈夫王大牛前日一起去英国旅行了。
    关系是:
    No.1: 夫妻, Probability is 0.996217
    No.2: 父母, Probability is 0.00193673
    No.3: 兄弟姐妹, Probability is 0.00128172
    
    实体1: 李晓华
    实体2: 王大牛
    李晓华和她的高中同学王大牛两个人前日一起去英国旅行。
    关系是:
    No.1: 好友, Probability is 0.526823
    No.2: 兄弟姐妹, Probability is 0.177491
    No.3: 夫妻, Probability is 0.132977
    
    实体1: 李晓华
    实体2: 王大牛
    王大牛命令李晓华在周末前完成这份代码。
    关系是:
    No.1: 上下级, Probability is 0.965674
    No.2: 亲戚, Probability is 0.0185355
    No.3: 父母, Probability is 0.00953698
    
    实体1: 李晓华
    实体2: 王大牛
    王大牛非常疼爱他的孙女李晓华小朋友。
    关系是:
    No.1: 祖孙, Probability is 0.785542
    No.2: 好友, Probability is 0.0829895
    No.3: 同门, Probability is 0.0728216
    
    实体1: 李晓华
    实体2: 王大牛
    谈起曾经一起求学的日子,王大牛非常怀念他的师妹李晓华。
    关系是:
    No.1: 师生, Probability is 0.735982
    No.2: 同门, Probability is 0.159495
    No.3: 兄弟姐妹, Probability is 0.0440367
    
    实体1: 李晓华
    实体2: 王大牛
    王大牛对于他的学生李晓华做出的成果非常骄傲!
    关系是:
    No.1: 师生, Probability is 0.994964
    No.2: 父母, Probability is 0.00460191
    No.3: 夫妻, Probability is 0.000108601
    
    实体1: 李晓华
    实体2: 王大牛
    王大牛和李晓华是从小一起长大的好哥们
    关系是:
    No.1: 兄弟姐妹, Probability is 0.852632
    No.2: 亲戚, Probability is 0.0477967
    No.3: 好友, Probability is 0.0433101
    
    实体1: 李晓华
    实体2: 王大牛
    王大牛的表舅叫李晓华的二妈为大姐
    关系是:
    No.1: 亲戚, Probability is 0.766272
    No.2: 父母, Probability is 0.162108
    No.3: 兄弟姐妹, Probability is 0.0623203
    
    实体1: 李晓华
    实体2: 王大牛
    这篇论文是王大牛负责编程,李晓华负责写作的。
    关系是:
    No.1: 合作, Probability is 0.907599
    No.2: unknown, Probability is 0.082604
    No.3: 上下级, Probability is 0.00730342
    
    实体1: 李晓华
    实体2: 王大牛
    王大牛和李晓华为谁是论文的第一作者争得头破血流。
    关系是:
    No.1: 合作, Probability is 0.819008
    No.2: 上下级, Probability is 0.116768
    No.3: 师生, Probability is 0.0448312

     

     

     

    展开全文
  • OpenNRE(https://github.com/thunlp/OpenNRE.git)是清华大学自然语言处理实验室推出的一款开源的神经网络关系抽取工具包,包括了多款常用的关系抽取模型,发布仅一年即在 Github 上获得了 1700+ 星标。现在这款工具...

    4973b2de8c84fb3fc3795a5ef3a98de2.gif

    OpenNRE(https://github.com/thunlp/OpenNRE.git)是清华大学自然语言处理实验室推出的一款开源的神经网络关系抽取工具包,包括了多款常用的关系抽取模型,发布仅一年即在 Github 上获得了 1700+ 星标。

    f34469b2dc6bd431e6dce86e910cdb4a.png

    现在这款工具包已经悄悄更新到了 2.0 版本!在原版 TensorFlow 实现的基础上,不仅采用了现在大热的 PyTorch 作为基础,设计了更加模块化的框架,还囊括了句子级别关系抽取、远监督关系抽取和少次学习关系抽取等丰富设定,可以说是加量不加价,值得你拥有!

    0e315ad5b9638fb6be4a01d7eae2a893.png

     OpenNRE框架图

    同时,该工作也以 DEMO Paper 的形式发表在了 EMNLP 2019 上,这里是 paper 的地址: 

    OpenNRE: An Open and Extensible Toolkit for Neural Relation Extraction https://arxiv.org/abs/1909.13078 

    作者在介绍文档中还写道,相比于原版主要面对关系抽取研究者的设定,新版的 OpenNRE 受众更加广泛:

    • 对于初学者:OpenNRE 提供了详尽的介绍文档,可以快速帮助入门

    • 对于开发者:提供了简洁易用的 API 和若干预训练模型,可方便调用

    • 对于研究者:模块化设计、多种任务设定、state-of-the-art 模型,可以帮助研究者更快更高效的进行探索

    • 想要在 NLP 课上交一份满意大作业的同学:这个项目里的模型绝对能让你的教授眼前一亮

    e923bc85efd3fe2ce836911c409d3781.png

    什么是关系抽取

    关系抽取是自然语言处理当中的一项重要任务,致力于从文本中抽取出实体之间的关系。比如从句子“达芬奇绘制了蒙娜丽莎”中,我们可以抽取出(达芬奇,画家,蒙娜丽莎)这样一个关系三元组。

    关系抽取技术是自动构建知识图谱的重要一环。知识图谱是由真实世界中的实体和实体间复杂关系构成的结构化表示,是帮助机器理解人类知识的重要工具,在问答系统、搜索引擎、推荐系统中都有着重要的应用。

    c0d4ec4f673f49c71ca768bc1ec8fd6b.png

     关系图谱示例

    关系抽取十八变

    96bd79d1cefefd1fa3534619d2074b53.png

    由于数据和需求的不同,关系抽取这一任务也发展出了许多不同的任务场景。下面简单介绍几种,他们也都被包括在了 OpenNRE 这一工具包中。 句子级别关系抽取顾名思义,句子级别的关系抽取,就是对每一个给定的句子,和在句子中出现的实体,判断他们之间的关系。在这样的设定下,通常会使用人工精标的数据进行训练和测试,如 SemEval 2010 Task8,TACRED,ACE2005 等。OpenNRE 中还提供了一个新的数据集 Wiki80,包含 80 种 Wikidata 关系和 56,000 个句子,与以往的数据集相比,规模更大。 包级别关系抽取包级别的关系抽取产生于远程监督(Distant Supervision)的设定中。我们都知道,传统的机器学习方法需要大量数据,而标注数据费时费力,因此研究者们提出了远程监督这一方法,通过将知识图谱中的关系三元组与文本对齐,自动进行标注。然而这一方法也带来了大量的噪声数据,为了减小噪声的影响,多样本多标签(multi-instance multi-label)的方法被引入,模型不再对单个句子进行分类,而是对包含相同实体对的句子集(称为包)进行分类。 少次学习关系抽取少次学习(Few-Shot)是一种探索如何让模型快速适应新任务的设定,通过学习少量的训练样本,即可获得对新类型事物的分类能力。刘知远老师组发布的数据集 FewRel 正是进行了这方面的探索。 篇章级别的关系抽取:相比于针对句子的关系抽取,篇章级别的关系抽取难度更大,但包含的信息也更丰富。要想在这方面做的更好,就需要模型具有一定的推理、指代消解的能力。这一领域的代表数据集是同样来自刘知远老师组的DocRED(https://github.com/thunlp/DocRED)。 上述任务场景基本涵盖了目前关系抽取领域的最新进展,OpenNRE 也提供了较为便利的接口以支持上述场景的进一步工作研究。

    上手教程:如何使用OpenNRE

    OpenNRE 的使用十分简单,首先 git clone 项目并安装依赖:

    git clone https://github.com/thunlp/OpenNRE.git
    pip install -r requirements.txt

    随后在目录下打开 Python,并 import opennre:

    >>> import opennre

    可以使用 get_model 命令加载预训练模型:

    >>> model = opennre.get_model('wiki80_cnn_softmax')

    这是一个在 wiki80 数据集上进行训练的句子级别的 CNN 模型,可以在 80 个关系上对句子进行分类。随后我们可以用 infer 函数进行预测:

    >>> model.infer({'text''He was the son of Máel Dúin mac Máele Fithrich, and grandson of the high king Áed Uaridnach (died 612).''h': {'pos': (1846)}, 't': {'pos': (7891)}})
    ('father'0.5108704566955566)

    可以看到模型正确推理出了关系 father,并给出了模型预测的置信度。

    关于 OpenNRE 更详细的说明,可以查看项目主页:

    https://github.com/thunlp/OpenNRE

    或文档:

    https://opennre-docs.readthedocs.io/en/latest/

    关于作者

    OpenNRE 由孙茂松教授领导的清华大学自然语言处理实验室(THUNLP)师生研发维护。目前 THUNLP 的 Github 主页(https://github.com/thunlp)已有 92 个项目,其中有许多高星项目。

    378d59c4ecf66a690fbd1d8d63fca089.png

    OpenNRE 项目的两位主要作者——高天宇(https://gaotianyu.xyz/about/)和韩旭(https://thucsthanxu13.github.io/)都是 THUNLP 实验室刘知远老师的学生。

    其中,高天宇是大四的本科生,韩旭是博士三年级的学生。从主页上可以看出,两人的研究方向均为自然语言处理、信息抽取、图谱表示和机器学习。其中,高天宇作为大四的本科生,已经在相关领域国际会议上发表了三篇论文;而韩旭除了在相关领域发表多篇论文外,也是 OpenNRE、OpenKE 和 FewRel 等多个开源项目的主要开发者与参与者,在开源社区十分活跃。更多的信息可以参考作者个人主页以及项目文档。

    3a0cbb6c89dfed1e9d401fb8ee1e8fc6.png

    点击以下标题查看更多往期内容: 

    • 基于胶囊网络的知识图谱完善和个性化搜索

    • EMNLP 2019:针对短文本分类的异质图注意力网络

    • 变分推断(Variational Inference)最新进展简述

    • BN究竟起了什么作用?一个闭门造车的分析

    • 使用跨领域语言建模的跨领域命名实体识别

    • 从语言模型到Seq2Seq:Transformer如戏

    464780f50a74a82d25eff43845506302.gif#投 稿 通 道#

     让你的论文被更多人看到 

    如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

    总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

    PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

    来稿标准:

    • 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

    • 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

    • PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

    ? 投稿邮箱:

    • 投稿邮箱:hr@paperweekly.site 

    • 所有文章配图,请单独在附件中发送 

    • 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

    ?

    现在,在「知乎」也能找到我们了

    进入知乎首页搜索「PaperWeekly」

    点击「关注」订阅我们的专栏吧

    关于PaperWeekly

    PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

    cf3c7055269d18526a0af0d06dd1b69b.gif

    ▽ 点击 | 

    展开全文
  • 事件抽取是理解语言的一个重要基础,在金融领域尤其有用。在应用NLP技术前,很多金融从业人员真的是靠人盯新闻、公告。你想想,从那么长的一篇新闻或公告中找出一些风险信号或营销机会真的是费时费力。借助NLP技术从...
  • 作者 | 李秋键责编 | Carol封图 |区块链大本营(blockchain_camp)语义解析作为自然语言处理的重要方面,其主要作用如下:在词的层次上,语义分析的基本任务是...关系抽取可以简单理解为一个分类问题:给定两个实体...
  • 作者 | 李秋键责编 | Carol封图 | 区块链大本营(blockchain_camp)语义解析作为自然语言处理的重要方面,其主要作用如下:在词的层次上,语义分析的...关系抽取可以简单理解为一个分类问题:给定两个实体和两个实体...
  • 作者 | 李秋键责编 | Carol来源 | AI科技大本营(ID:rgznai100)语义解析作为自然语言处理的重要方面,其主要作用如下:在词的层次上,语义分析的基本任务是...关系抽取可以简单理解为一个分类问题:给定两个实体和两...
  • 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。关系抽取可以简单理解为...
  • 关系抽取任务中引入远程监督学习的方法,尤其是针对远程监督中的标记噪声问题,使用分段的 CNN(Piecewise CNN,简写为 PCNN)抽取句子特征向量表示的同时,考虑到同一个 Bag 中句子表达关系的不同重要性,引入了...
  • 本联合模型不仅避免了基于流水线模型进行事件抽取产生的误差传播问题和要素重叠问题,而且捕捉了事件触发词和事件要素、要素角色之间的依赖关系。本研究提出的方法在国际评测任务ACE2005中文事件抽取数据集上进行...
  • 论文笔记整理:吴涵,天津大学硕士,研究...开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。 点击 阅读原文 ,进入 OpenKG 博客。
  • 中文实体关系抽取实践

    万次阅读 多人点赞 2019-07-17 16:21:04
    本篇博客主要讲NLP中的关系抽取,聚焦点中文,没有过多理论,侧重实践(监督学习)。 关于实体关系抽取的技术发展脉络,感兴趣的可以看一下: https://www.cnblogs.com/theodoric008/p/7874373.html 关系抽取有...
  • ChinesePersonRelationGraph ...中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用. 项目地址:htt...
  • 文章目录一、中文关系抽取训练结果测试结果二、使用前准备三、注意事项 一、中文关系抽取 使用哈工大,BERT-wwm,中文bert,在20w中文人物关系数据上的准确率达到0.97 训练结果 === Epoch 0 train === 100%|███...
  • 关系抽取

    2021-04-08 18:25:07
    用Bi-GRU+Attention和字向量做端到端的中文关系抽取 关系抽取可以简单理解为一个分类问题:给定两个实体和两个实体共同出现的句子文本,判别两个实体之间的关系。 GRU (Gated Recurrent Unit) 基于注意力机制的BiGRU...
  • 基于句法语义特征的中文实体关系抽取
  • 在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。
  • 该文提出了一种基于卷积树核的无指导中文实体关系抽取方法。该方法以最短路径包含树作为关系实例的结构化表示形式,以卷积树核函数作为树相似度计算方法,并采用分层聚类方法进行无指导中文实体关系抽取。在ACE RDC ...
  • 无指导的开放式中文实体关系抽取,对构建知识图谱中的三元组抽取有一定的参考作用
  • 一、概述:首先基于规则和人工抽取关系词,随后基于抽取关系抽取关系句,然后基于人工总结的模板结合同义词和re模块进行模板匹配抽取三元组。二、规则抽取流程1)句子关系抽取(所谓的关系词就是含有某个关系的...
  • 针对旅游和新闻领域文本经常包含许多由协陪义动词引发的隐式实体关系,本文研究了基于协陪义动词的中文隐式实体关系抽取问题. 将机器学习方法与规则相结合,借助于显式实体关系对隐式实体关系进行推理. 首先,利用...
  • 基于依存句法分析的开放式中文实体关系抽取

    万次阅读 热门讨论 2018-04-26 08:42:12
        这一段时间一直在做知识图谱,卡在实体关系抽取这里几个月了,在github上面看到有人使用卷积神经网络训练模型进行抽取,自己也尝试了一下,但是一直苦于没有像样数据去训练,而标注训练集又太费时间了,我不...

空空如也

空空如也

1 2 3 4 5 ... 15
收藏数 281
精华内容 112
关键字:

中文关系抽取