精华内容
下载资源
问答
  • 考虑到微博的特点,提出了一种无监督的开放关系抽取(ORE)方法,即MICRO-ORE。 首先,MICRO-ORE使用左右信息熵方法自动从微博文本中提取关键短语,并将其链接到外部知识源以规范微博文本并添加语义信息。 其次,...
  • 9.25刷榜结束任务简介:实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下...

    429598f1b1bd30036ebe77b1afc31298.png

    9.25刷榜结束

    任务简介:

    实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。

    任务详情:

    给定schema约束集合及句子sentence,其中schema定义了关系Predicate以及其对应的主体Subject和客体Object的类别,例如:

    (

    “subject_type”:“疾病”,

    “predicate”: “药物治疗”,

    “object_type”:“药物”

    )

    (

    “subject_type”:“疾病”,

    “predicate”: “实验室检查”,

    “object_type”:“检查”

    )

    任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。输入/输出:(1) 输入:schema约束集合及句子sentence
    (2) 输出:句子sentence中包含的符合给定schema约束的三元组知识Triples

    展开全文
  • 比赛会有成绩的提交,跟算法与数据清洗都有关系,也就是特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 特征工程是使用专业背景知识技巧处理数据,使得特征能在机器学习算法上发挥更好...

    什么是特征工程

    在这里插入图片描述
    比赛会有成绩的提交,跟算法与数据清洗都有关系,也就是特征工程

    数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

    特征工程是使用专业背景知识技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
    意义:会影响机器学习的效果

    pandas用来作数据清洗 数据缺失值处理
    sklearn 特征工程


    特征提取/抽取

    在这里插入图片描述
    比如上面这个文章,我想通过这个文章作为训练集,那么应该怎么办呢?
    机器学习算法 ——统计方法 —— 数学公式

    文本类型转换成数值如何转
    类型 转换数值

    特征提取
    将任意数据(文本或者图像)转换为可用于机器学习的数字特征

    在这里插入图片描述
    在这里插入图片描述
    那么在特征提取,我们就要需要用的sklearn中的这个类featur_extraction

    字典特征提取

    在这里插入图片描述
    vector 数学向量 物理矢量
    矩阵 matrix 二维数组
    用一维数组来存储向量

    在这里插入图片描述
    过程,如何将这个文本的样本转换成矩阵的向量集

    当特征中类别的时候,公平的表示。类别特征,one-hot编码

    def dict_demo():
        """
        字典特征抽取
        :return:
        """
        data = [{'city':'北京','temperature':100},{'city':'上海','temperature':60}, {'city':'深圳','temperature':30}]
        #1) 实例化一个转换器类
        transfer = DictVectorizer()
        #2)调用fit_transform()
        data_new = transfer.fit_transform(data)
        print(data_new)
        return None
    

    在这里插入图片描述
    fit_transfer()函数返回的是一个sparse矩阵
    稀疏矩阵

    如果我们想看到像这样的形式
    在这里插入图片描述
    要在实例化的时候添加这个sparse参数

    要在参数调用的时候,添加sparse==False

    在这里插入图片描述

    稀疏矩阵:将非0值表示出来

    在这里插入图片描述
    表示1.0在第0行 第一列 节省内存 提高加载效率
    以此类推

    在这里插入图片描述
    one-hot编码

    在这里插入图片描述

    应用场景:
    1)数据集中类别特征比较多
    将数据集的特征转换成字典类型
    DictVectorizer转换
    2)本身达到的字典类型


    文本特征提取 单词作为特征 其实有句子,短语,单词,字母 特征:特征词

    方法1:CountVertorizer
    在这里插入图片描述

    在这里插入图片描述
    这个文本特征提取,不像字典特征提取一样。不可以在实例化的时候,生成一个sparse=False
    这样是不可以,所以要给他转换成一个数组的形式,这样就会变成这样的一个二维数组

    这个文本抽取:就是统计这个样本出现的次数 统计每个样本特征词出现的个数

    在这里插入图片描述
    当我们使用中文进行实验,发现这个方法把两个句子作为特征。这样不太好

    stop_words 停用的
    对于分类没有用的时候,以列表的形式
    停用词表

    中文文本的特征提取

    jieba这个附件的下载

    在这里插入图片描述
    在这里插入图片描述

    利用jieba.cut的结果是返回一个生成器。
    在这里插入图片描述

    展开全文
  • 点我一、中文关系抽取使用哈工大,BERT-wwm,中文bert,在20w中文人物关系数据上的准确率达到0.97实现过程实现过程十分简单,如下:1)token阶段:将文本根据两个实体位置分割成五个小片; 2)index阶段:文本开头...

    在清华大学开源的OpenNRE项目基础上实现中文实体关系识别

    github项目地址,点我


    一、中文关系抽取

    使用哈工大,BERT-wwm,中文bert,在20w中文人物关系数据上的准确率达到0.97

    实现过程

    实现过程十分简单,如下:

    1)token阶段:将文本根据两个实体位置分割成五个小片; 2)index阶段:文本开头使用[CLS],结尾使用[SEP],中间的分割使用[unused1-4]; 3)padding阶段:0填充,最大长度80; 4)attention mask,完成embedding; 5)通过bert模型; 6)全连接; 7)softmax。

    训练结果

    === Epoch 0 train === 100%|██████████████████████████████████████████████████████████████████| 3094/3094 [40:12<00:00, 1.28it/s, acc=0.773, loss=0.687] === Epoch 0 val === 100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [00:06<00:00, 2.42it/s, acc=0.934] Best ckpt and saved. === Epoch 1 train === 100%|██████████████████████████████████████████████████████████████████| 3094/3094 [38:17<00:00, 1.35it/s, acc=0.923, loss=0.235] === Epoch 1 val === 100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [00:05<00:00, 2.78it/s, acc=0.972] Best ckpt and saved. === Epoch 2 train === 100%|██████████████████████████████████████████████████████████████████| 3094/3094 [22:43<00:00, 2.27it/s, acc=0.961, loss=0.121] === Epoch 2 val === 100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [00:05<00:00, 2.71it/s, acc=0.986] Best ckpt and saved. Best acc on val set: 0.986000 100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [00:06<00:00, 2.64it/s, acc=0.986] Accuracy on test set: 0.986

    测试结果

    model.infer({'text': '场照片事后将发给媒体,避免采访时出现混乱,[3]举行婚礼侯佩岑黄伯俊婚纱照2011年4月17日下午2点,70名亲友见 证下,侯佩', 'h': {'pos': (28, 30)}, 't': {'pos': (31, 33)}})

    ('夫妻', 0.9995878338813782)

    model.infer({'text': '及他们的女儿小苹果与汪峰感情纠葛2004年,葛荟婕在欧洲杯期间录制节目时与汪峰相识并相恋,汪峰那首《我如此爱你', 'h': {'pos': (10, 11)}, 't': {'pos': (22, 24)}})

    ('情侣', 0.9992896318435669)

    model.infer({'text': '14日,彭加木的侄女彭丹凝打通了彭加木儿子彭海的电话,“堂哥已经知道了,他说这些年传得太多,他不相信是真的', 'h': {'pos': (4, 6)}, 't': {'pos': (22, 21)}})

    ('父母', 0.8954808712005615)

    model.infer({'text': '名旦吴菱仙是位列“同治十三绝”的名旦时小福的弟子,算得梅兰芳的开蒙老师,早年曾搭过梅巧玲的四喜班,旧谊', 'h': {'pos': (2, 4)}, 't': {'pos': (27, 29)}})

    ('师生', 0.996309220790863)

    二、使用前准备

    1.bert模型下载:在./pretrain/下面放置chinese_wwm_pytorch模型,下载地址:https://github.com/ymcui/Chinese-BERT-wwm

    2.数据下载:在./benchmark/people-relation/下执行gen.py,生产中文人物关系数据,具体脚本中有说明。

    3.配置环境变量:vim ~/.bash_profile 添加

    # openNRE
    
    export openNRE=项目位置

    三、注意事项

    如果自己训练了tensorflow 的bert,可以通过https://github.com/huggingface/transformers 里面的convert_bert_original_tf_checkpoint_to_pytorch.py 脚本转换为pytorch版。

    踩坑记录:

    1.安装tensorflow 2.0,最终用的都是PyTorch模型,但TensorFlow也得安装

    2.构造checkpoint文件

    3.报错:Embedding' object has no attribute 'shape' ,解决:将报错位置assert那几行直接删除


    展开全文
  • 针对旅游和新闻领域文本经常包含许多由协陪义动词引发的隐式实体关系,本文研究了基于协陪义动词的中文隐式实体关系抽取问题. 将机器学习方法与规则相结合,借助于显式实体关系对隐式实体关系进行推理. 首先,利用...
  • 针对传统实体关系抽取需要预先指定关系类型和制定抽取规则等无法胜任大规模文本的情况,开放式信息抽取(Open Information Extraction, OIE)在以英语为代表的西方语言中取得了重大进展,但对于汉语的研究却显得不足...
  • 关系抽取

    2021-04-08 18:25:07
    用Bi-GRU+Attention和字向量做端到端的中文关系抽取 关系抽取可以简单理解为一个分类问题:给定两个实体和两个实体共同出现的句子文本,判别两个实体之间的关系。 GRU (Gated Recurrent Unit) 基于注意力机制的BiGRU...

    用Bi-GRU+Attention和字向量做端到端的中文关系抽取

    关系抽取可以简单理解为一个分类问题:给定两个实体和两个实体共同出现的句子文本,判别两个实体之间的关系

    实现的算法

    关系抽取从实现的算法来看,主要分为四种:

    1、手写规则(Hand-Written Patterns);

    2、监督学习算法(Supervised Machine Learning);

    3、半监督学习算法(Semi-Supervised Learning,比如Bootstrapping和Distant Supervision);

    4、无监督算法。

    GRU (Gated Recurrent Unit)

    基于注意力机制的BiGRU判决结果倾向性分析

    由于RNN在处理序列时具有严重的梯度消失问题, 即越靠后的节点对于前面的节点感知能力越低. 为了解决梯度消失问题

    而GRU作为LSTM的变体, 对序列数据处理同样非常适合, 也是通过“门机制”来记忆前面节点的信息, 以此解决梯度消失问题.

    基于Bi-GRU和Self-Attention模型的企业关系抽取

    Bi-GRU虽然考虑了长距离词的相关性,但提取特征不够充分

    所以在已有基础上引入Self-Attention,使模型能进一步计算每个词的长程依赖特征,提高模型的特征表达能力

    展开全文
  • 本文转载自:用Bi-GRU和字向量做端到端的中文关系抽取 代码在: Information-Extraction-Chinese 实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。关系抽取可以简单理解为一个分类问题:给定...
  • 关系抽取相关调研

    2017-10-11 15:48:44
    博客基于深度学习的关系抽取 硕士论文2013文本挖掘中的中文实体关系抽取 百度文库:实体关系抽取的技术方法综述2008
  • 从非结构化文本中自动抽取三元组知识并构建知识图谱需要用到的核心技术就是命名实体识别和关系抽取,现在已经有了很多相关的具体算法和模型,对于这些大家可以看顶会论文和技术分享,我们主要来介绍几个专门面向中文...
  • 分别在长文本语料集和两个短文本语料集上,抽取具有依存关系的词对,并利用这些词对作为特征进行分类实验。实验结果表明:依存关系能够作为有效的特征进行文本分类,并能够改善文本分类的性能;单独把依存关系作为特征,不...
  • 针对互联网中开放式中文文本关系难以抽取的问题, 提出一个新的关系抽取方法。 为缓解关系三元组抽取较难的问题, 给出一个新的基于属性和概念实例的关系三元组构造方法, 抽取的大量概念实例关系三元组中 不仅包含大量...
  • 关系抽取的主要任务就是,给定一段句子文本,抽取句子中的两个实体以及实体之间的关系,以次来构成一个三元组(s,p,o),s是subject表示主实体,o为object表示客实体,p为predicate表示两实体间的关系。...
  • 知识图谱关系抽取 关键词提取 文字摘要 新词发现 情感分析 文本聚类 等等。。。。 安装方式 点安装 pip install -U jiagu 如果比较慢,可以使用清华的pip源: pip install -U jiagu -i ...
  • 1、工具介绍jiebajieba分词,最好用的开源中文分词工具。他最主要的两个功能是分词和关键词的抽取。在这里,我们需要用他的分词功能来提取文本中的人名。gephigephi是一个开源的复杂网络数据可视化软件,可用于探索...
  • 在处理问答对形式的文本时,除了文本中实体间的关系抽取之外,作为连接问句与答句之间关系的提问模式同样需要抽取。通过有监督的标注算法(条件随机场)与基于模板元组自举的半监督算法的结合在抽取实体间关系时有...
  • Cool-NLPCV (持续更新中…) Some Cool NLP and CV Repositories and Solutions Cool-NLP | Cool-CV 旨在收集NLP中常见任务的开源解决...斯坦福大学2014(吴恩达)机器学习教程中文笔记 《统计学习方法》第二版的代
  • 知识图谱(Knowledge Graph)主要由实体、关系和属性构成,而信息抽取(Information Extraction)作为构建知识图谱最重要的一个环节,目的就是从文本当中抽取出三元组信息,包括“实体-关系-实体”以及“实体-属性-...
  • 导语:知识图谱(Knowledge Graph)主要由实体、关系和属性构成,而信息抽取(Information Extraction)作为构建知识图谱最重要的一个环节,目的就是从文本当中抽取出三元组信息,包括“实体-关系-实体”以及“实体-...
  • 获取概念的属性信息有助于构建概念间的关系,进而改进基于概念的信息检索等应用的性能。研究了如何从机器可读词典中获取释义项的属性信息并实现了一个相应的系统DAE(Dictionary Attribute Extractor)。系统基于...
  • 运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了...
  • 1. NLP 走近自然语言处理 概念  Natural Language Processing/Understanding...中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入…… 应用 篇章理解、文本摘要、情感分析、...
  • 社区内容的数据挖掘方面主要可分为两大类:内容关联挖掘和用户关系挖掘, 热词/热点话题发现属于社区内容挖掘范畴,是指从大量的UGC文本中检测出用户广泛讨论的话题。涉及两个关键性技术:中文分词技术,中文话题发现技术...
  • 1. NLP 走近自然语言处理 概念 Natural Language Processing/...内容中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入…… 应用篇章理解、文本摘要、情感分析、知识图...
  • 实验结果表明, 将本文提出的特征应用于条件随机域(Conditional random ¯elds, CRFs) 模型可以有效提高比较要素抽取的各项性能指标, 同时, 将本文的实验结果与2012 年中文情感分析评测结果的最大值进行了比较...
  • 该文在前人工作的基础上提出一种基于单文本指代消解技术的人物家庭关系抽取方法,以此扩大 人物家庭关系抽取的范围,进而提高人物家庭网络的召回性能。该文还提出了一种基于人物虚拟边的家庭网络评 估指标,用于更...
  • 该方法使用依存关系抽取文本中的事件集合,通过卷积神经网络进行事件特征提取,并在此基础上进行文本分类。在对中文新闻语料的多分类实验中,该方法较传统的文本分类方法有明显的提高,较使用n-gram的卷积神经网络...
  • NLP中的特征抽取

    2020-02-12 18:21:07
    第一类是序列标注,这是最典型的 NLP 任务,比如中文分词,词性标注,命名实体识别,语义角色标注等都可以归入这一类问题,它的特点是句子中每个单词要求模型根据上下文都要给出一个分类类别。 第二类是分类任务,...
  • 一、 NLP 走近自然语言处理 概念 Natural Language Processing/...中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入…… 应用 篇章理解、文本摘要、情感分析、...

空空如也

空空如也

1 2 3 4 5
收藏数 92
精华内容 36
关键字:

中文文本关系抽取