精华内容
下载资源
问答
  • 基于几个可用的NER和RE数据集定义了7个实体标签和9个关系标签。实体(Entity):每个实体都由带有多个属性的T标签标识。关系(Relation):每个关系由R标签标识,该标签可以具有多个属性。
  • ACE05 关系抽取数据集

    千次阅读 2019-11-27 16:59:48
    ACE05 自然语言信息抽取数据集 简介 数据集概述 提供已经标注好的多种类型实体,关系和事件,目前该数据集主要用于事件抽取任务中 有中文、英文和阿拉伯文的数据 标注说明 标注过程如下 先进行1P和DUAL两轮...

    ACE05 自然语言信息抽取数据集

    简介

    • 数据集概述

      提供已经标注好的多种类型实体,关系和事件,目前该数据集主要用于事件抽取任务中

      有中文、英文和阿拉伯文的数据

    标注说明

    • 标注过程如下
    1. 先进行1P和DUAL两轮标注,标注的结果分别存储于对应语料的fp1和fp2目录下
    2. 对以上两轮标注的结果进行裁决,将才绝后的标注结果存储于对应语料的adj目录下
    3. 对于English的语料,对adj目录下标注的结果再进行一步处理,将结果存储于timex2norm目录下

    对应的标注过程和标注内容如下

        1P: entities        DUAL: entities
            values                values
            events                events
            relations             relations
                |                    |
                |                    |
                |_________?__________|
                          |
                          |
                          |
                          V
                     ADJ: entities
                          values
                          events
                          relations
                          |
                          |
                          |
                          V
                     NORM: TIMEX2 normalization 
                           (English only)
    

    目录架构

    • 目录架构如下

      ─Arabic              # 阿拉伯语语料库
      │  ├─bn
      │  │  ├─adj
      │  │  ├─altAdj
      │  │  ├─fp1
      │  │  └─fp2
      │  ├─nw
      │  │  ├─adj
      │  │  ├─altAdj
      │  │  ├─fp1
      │  │  └─fp2
      │  └─wl
      │      ├─adj
      │      ├─fp1
      │      └─fp2
      ├─Chinese             # 中文语料
      │  ├─bn
      │  │  ├─adj
      │  │  ├─fp1
      │  │  └─fp2
      │  ├─nw
      │  │  ├─adj
      │  │  ├─fp1
      │  │  └─fp2
      │  └─wl
      │      ├─adj
      │      ├─fp1
      │      └─fp2
      ├─dtd               # 数据说明文件  
      └─English           # 英文语料
          ├─bc
          │  ├─adj
          │  ├─fp1
          │  ├─fp2
          │  └─timex2norm
          ├─bn
          │  ├─adj
          │  ├─fp1
          │  ├─fp2
          │  └─timex2norm
          ├─cts
          │  ├─adj
          │  ├─fp1
          │  ├─fp2
          │  └─timex2norm
          ├─nw
          │  ├─adj
          │  ├─fp1
          │  ├─fp2
          │  └─timex2norm
          ├─un
          │  ├─adj
          │  ├─fp1
          │  ├─fp2
          │  └─timex2norm
          └─wl
              ├─adj
              ├─fp1
              ├─fp2
              └─timex2norm
      

    文件解读

    • 每份语料由如下所示的5个文件组成

      Source Text (.sgm) Files
      	- 这些文件是SGM格式的源文本文件,.sgm文件是UTF-8编码的
       ACE Program Format (APF) (.apf.xml) Files
      	- 这些文件采用ACE注释文件格式。
       AG (.ag.xml) Files
          - 这些是使用LDC的注释工具创建的注释文件,这些文件被转换为对应的.apf.xml文件。
       ID table (.tab) Files
          - 这些文件通过使用ag.xml文件和相应的apf.xml文件存储ID们之间的映射表
       AIF (.aif.xml) Files
      	- 这些是使用MITRE的Callisto创建的注释文件,仅适用于Valorem产生的阿拉伯数据。
      

    以下以/English/bn/CNN_ENG_20030630_085848.18为例进行具体的解读

    • CNN_ENG_20030630_085848.18.sgm中内容(关于类似<DOC>这些标签的含义可见dtd/ace_source_sgml.v1.0.2.dtd)

      <DOC>
      <DOCID> CNN_ENG_20030630_085848.18 </DOCID>#文件名字
      <DOCTYPE SOURCE="broadcast news"> NEWS STORY </DOCTYPE>#文件来源
      <DATETIME> 2003-06-30 09:23:30 </DATETIME>#时间
      <BODY>
      <TEXT>
      <TURN>#具体内容
      a wildfire in california forced hundreds of people from their homes.
      the fire, near the historic state park started yesterday when a
      trailer, hauled by a pickup, ignited on the golden state freeway. the
      fire consumed more than 500 acres is only about 35% contained. no
      injuries have been reported thankfully hat this time.
      </TURN>
      </TEXT>
      </BODY>
      <ENDTIME> 2003-06-30 09:23:54 </ENDTIME>
      </DOC>
      
    • CNN_ENG_20030630_085848.18.apf.xml

      .apf.xml文件是ACE标注过实体、关系、事件等要素后以XML格式呈现的文本(.apf.xml文件的说明文档是dtd/ace_source_sgml.apf.v5.1.1.dtd)。

      说一下dtd/ace_source_sgml.apf.v5.1.1.dtd应该怎么读

      <!ATTLIST relation           #relation的标签具有以下的几个属性
                                   ID       ID                        #REQUIRED 
                                   									#这个REQUIRED表示必须的
                                   TYPE     (PHYS|PART-WHOLE|PER-SOC|ORG-AFF|
                                             ART|GEN-AFF|METONYMY)    #REQUIRED
                                   SUBTYPE  (Located|Near|Geographical| #二级分类
                                             Subsidiary|Artifact|Business|
                                             Family|Lasting-Personal|Employment|
                                             Ownership|Founder|Student-Alum|
                                             Sports-Affiliation|
                                             Investor-Shareholder|
                                             Membership|
                                             User-Owner-Inventor-Manufacturer|
                                             Citizen-Resident-Religion-Ethnicity|
                                             Org-Location)            #IMPLIED
                                   MODALITY (Asserted|Other)          #IMPLIED
                                   TENSE    (Past|Present|Future|		#时态
                                             Unspecified)             #IMPLIED
      >
      

      relation标签:

      <relation ID="CNN_ENG_20030630_085848.18-R1" TYPE="ART" SUBTYPE="User-Owner-Inventor-Manufacturer" TENSE="Unspecified" MODALITY="Asserted">
      
    • 回到CNN_ENG_20030630_085848.18.apf.xml其中标记的要素包括

      1. ENTITY

        <entity ID="CNN_ENG_20030630_085848.18-E2" TYPE="PER" SUBTYPE="Group" CLASS="USP">
          <entity_mention ID="CNN_ENG_20030630_085848.18-E2-2" TYPE="NOM" LDCTYPE="NOM">
            <extent>
              <charseq START="100" END="117">hundreds of people</charseq>
            </extent>
            <head>
              <charseq START="112" END="117">people</charseq>
            </head>
          </entity_mention>
          <entity_mention ID="CNN_ENG_20030630_085848.18-E2-3" TYPE="PRO" LDCTYPE="PRO">
            <extent>
              <charseq START="124" END="128">their</charseq>
            </extent>
            <head>
              <charseq START="124" END="128">their</charseq>
            </head>
          </entity_mention>
        </entity>
        <entity ID="CNN_ENG_20030630_085848.18-E3" TYPE="FAC" SUBTYPE="Building-Grounds" CLASS="SPC">
          <entity_mention ID="CNN_ENG_20030630_085848.18-E3-4" TYPE="NOM" LDCTYPE="NOM">
            <extent>
              <charseq START="124" END="134">their homes</charseq>
            </extent>
            <head>
              <charseq START="130" END="134">homes</charseq>
            </head>
          </entity_mention>
        </entity>
        
        • entity包含4个必须具备的属性:ID,TYPE,SUBTYPE和CLASS

        • entity属性中的TYPE共有7类,分别是PER、ORG、LOC、GPE、FAC、VEH和WEA;每一类下都有若干对应的子类,具体可见dtd/ace_source_sgml.apf.v5.1.1.dtd文档;

          TYPE="PER" SUBTYPE="Individual"
          TYPE="PER" SUBTYPE="Group"
          TYPE="PER" SUBTYPE="Indeterminate"
          
          TYPE="ORG" SUBTYPE="Government"
          ...
          
        • entity_mention是对实体进一步区分他有extent和head两个子标签,extent代表词的全称,head代表词中最关键的单词。他有一系列的属性例如ID,TYPE,LDCTYPE,ROLE等。

        • entity还有external_link和entity_attributes这两个属性,external_link表示有些词有什么外部链接,entity_attributes表示将来可能要引入到库里的新词

      2. VALUE

        <value ID="CNN_ENG_20030630_085848.18-V1" TYPE="Numeric" SUBTYPE="Percent">
          <value_mention ID="CNN_ENG_20030630_085848.18-V1-1">
            <extent>
              <charseq START="319" END="320">35</charseq>
            </extent>
          </value_mention>
        </value>
        
        • VALUE包含三个必备的属性:ID,TYPE和SUBTYPE

        • VALUE的TYPE一共有5类分别是Numeric、Contact-Info、Crime、Job-Title和Sentence;每一类下都有若干对应的子类,具体可见dtd/ace_source_sgml.apf.v5.1.1.dtd文档

          TYPE="Numeric" SUBTYPE="Money"
          TYPE="Numeric" SUBTYPE="Percent"
          TYPE="Contact-Info" SUBTYPE="Phone-Number"
          TYPE="Contact-Info" SUBTYPE="E-Mail"
          TYPE="Contact-Info" SUBTYPE="URL"
          
          TYPE="Crime"
          TYPE="Job-Title"
          TYPE="Sentence"
          
        • value_mention标签和上述entity_mention标签类似有extent和head两个子标签

      3. timex2

        <timex2 ID="CNN_ENG_20030630_085848.18-T1" VAL="2003-06-30T09:23:30">
          <timex2_mention ID="CNN_ENG_20030630_085848.18-T1-1">
            <extent>
              <charseq START="44" END="62">2003-06-30 09:23:30</charseq>
            </extent>
          </timex2_mention>
        </timex2>
        <timex2 ID="CNN_ENG_20030630_085848.18-T2" VAL="2003-06-29">
          <timex2_mention ID="CNN_ENG_20030630_085848.18-T2-1">
            <extent>
              <charseq START="184" END="192">yesterday</charseq>
            </extent>
          </timex2_mention>
        </timex2>
        <timex2 ID="CNN_ENG_20030630_085848.18-T3" VAL="2003-06-30TMO">
          <timex2_mention ID="CNN_ENG_20030630_085848.18-T3-1">
            <extent>
              <charseq START="380" END="388">this time</charseq>
            </extent>
          </timex2_mention>
        </timex2>
        
        • timex2可选属性包括VAL(标准形式的时间)

        • timex2_mention与上边同理

      4. RELATION

        <relation ID="CNN_ENG_20030630_085848.18-R1" TYPE="ART" SUBTYPE="User-Owner-Inventor-Manufacturer" TENSE="Unspecified" MODALITY="Asserted">
          <relation_argument REFID="CNN_ENG_20030630_085848.18-E2" ROLE="Arg-1"/>
          <relation_argument REFID="CNN_ENG_20030630_085848.18-E3" ROLE="Arg-2"/>
          <relation_mention ID="CNN_ENG_20030630_085848.18-R1-1" LEXICALCONDITION="Possessive">
            <extent>
              <charseq START="124" END="134">their homes</charseq>
            </extent>
            <relation_mention_argument REFID="CNN_ENG_20030630_085848.18-E2-3" ROLE="Arg-1">
              <extent>
                <charseq START="124" END="128">their</charseq>
              </extent>
            </relation_mention_argument>
            <relation_mention_argument REFID="CNN_ENG_20030630_085848.18-E3-4" ROLE="Arg-2">
              <extent>
                <charseq START="124" END="134">their homes</charseq>
              </extent>
            </relation_mention_argument>
          </relation_mention>
        </relation>
        
        • relation包含TYPE属性表示后边两个词ROLE='Arg-1’与’Arg-2’之间的关系,关系主要包括

          <!-- List of TYPE/SUBTYPE pairs (as of May 7, 2005)
          
          TYPE="PHYS" SUBTYPE="Located"
          TYPE="PHYS" SUBTYPE="Near"
          
          TYPE="PART-WHOLE" SUBTYPE="Geographical"
          TYPE="PART-WHOLE" SUBTYPE="Subsidiary"
          TYPE="PART-WHOLE" SUBTYPE="Artifact"
          ...
          TYPE="METONYMY" (no SUBTYPE)
          
      5. EVENT

        <event ID="CNN_ENG_20030630_085848.18-EV1" TYPE="Movement" SUBTYPE="Transport" MODALITY="Asserted" POLARITY="Positive" GENERICITY="Specific" TENSE="Past">
          <event_argument REFID="CNN_ENG_20030630_085848.18-E2" ROLE="Artifact"/>
          <event_argument REFID="CNN_ENG_20030630_085848.18-E3" ROLE="Origin"/>
          <event_mention ID="CNN_ENG_20030630_085848.18-EV1-1">
            <extent>
              <charseq START="93" END="134">forced hundreds of people from their homes</charseq>
            </extent>
            <ldc_scope>
              <charseq START="68" END="134">a wildfire in california forced hundreds of people from their homes</charseq>
            </ldc_scope>
            <anchor>
              <charseq START="93" END="98">forced</charseq>
            </anchor>
            <event_mention_argument REFID="CNN_ENG_20030630_085848.18-E2-2" ROLE="Artifact">
              <extent>
                <charseq START="100" END="117">hundreds of people</charseq>
              </extent>
            </event_mention_argument>
            <event_mention_argument REFID="CNN_ENG_20030630_085848.18-E3-4" ROLE="Origin">
              <extent>
                <charseq START="124" END="134">their homes</charseq>
              </extent>
            </event_mention_argument>
          </event_mention>
        </event>
        
        • event的TYPE属性如下

          TYPE="Life" SUBTYPE="Be-Born"
          TYPE="Life" SUBTYPE="Die"
          TYPE="Life" SUBTYPE="Marry"
          TYPE="Life" SUBTYPE="Divorce"
          TYPE="Life" SUBTYPE="Injure"
          TYPE="Transaction" SUBTYPE="Transfer-Ownership"
          TYPE="Transaction" SUBTYPE="Transfer-Money"
          TYPE="Movement" SUBTYPE="Transport"
          TYPE="Business" SUBTYPE="Start-Org"
          TYPE="Business" SUBTYPE="End-Org"
          ...
          TYPE="Justice" SUBTYPE="Pardon"
          TYPE="Justice" SUBTYPE="Appeal"
          
        • event共有6个必须的属性TYPE,SUBTYPE,MODALITY,POLARITY,GENERICITY,TENSE

        • 他的子标签有event_argument、event_mention

        • event_mention包含extent、ldc_scope、anchor、event_mention_argument子标签,其中ldc_scope表示整个一句话,anchor是event_trigger

    参考了 https://blog.csdn.net/carrie_0307/article/details/91417203 的文章

    展开全文
  • 有三个文件,1.经济方面的实体关系数据集 2.几篇中文实体论文 3.SemEval2010_任务8_实体关系抽取数据集
  • 中文实体关系抽取数据实在太难找了,data中是忘记在哪里找的人物关系数据集,一共11+1种关系,数据质量不太好,但也找不到其他的了。 (更新)中 ybNero 同学分享了一份数据集,大家可以去issues中查看~ 梅葆玥 ...
  • 超级超级详细的实体关系抽取数据预处理代码详解 由于本人是代码小白,在学习代码过程中会出现很多的问题,所以需要一直记录自己出现的问题以及解决办法. 废话不多说,直接上代码!!! 一.data_process 1.由于数据集太大,...

    超级超级详细的实体关系抽取数据预处理代码详解

    由于本人是代码小白,在学习代码过程中会出现很多的问题,所以需要一直记录自己出现的问题以及解决办法.
    废话不多说,直接上代码!!!
    

    一.data_process
    1.由于数据集太大,然鹅本人的电脑…所以,我先添加了一段代码切分了一下数据集,因为数据集中都是三元组形式,所以可以直接笨拙的切分为几个文件
    数据集切分
    2.读取初始数据.读取切分之后的任意一个就OK了,存放为数组形式
    读取初始数据
    3.保留元素全为中文的三元组
    保留元素全为中文的三元组
    4.构建实体字典,为字典增加key-value对
    在这里插入图片描述
    输出结果应为(这里只截取了其中一个):
    在这里插入图片描述
    5.存入文档 在这里插入图片描述
    在这里插入图片描述
    6.获取句子集合.实体的BaiduCard属性为实体的百度百科简介, 通常为多个句子。根据实体字典获取句子集合, 存为列表格式。
    对所有句子进行预处理, 去除所有中文字符、中文常用标点之外的所有字符, 并对多个句子进行拆分, 存为列表格式。
    获取句子集合
    7.处理长句.把除去[^\u4e00-\u9fa5,?!,。?::!、;()() ]的特殊字符删除,按照指定的字符切分.将切分的符号保留并放在里面.
    对长句进行处理
    8.句子存为100个文件,存储的位置为processed/sentences,存储的名称为sen+str(i)
    在这里插入图片描述
    二.句子匹配实体
    对每一个句子, 遍历实体集合, 根据字符串匹配保存所有出现在句子中的实体。过滤掉没有实体或仅有一个实体出现的句子, 数据处理为[[sentence, [entity1,...]], ...]的格式。
    在这里插入图片描述
    在这里插入图片描述
    好了,今天先写到这,明天继续~

    展开全文
  • 针对旅游和新闻领域文本经常包含许多由协陪义动词引发的隐式实体关系,本文研究了基于协陪义动词的中文隐式实体关系抽取问题. 将机器学习方法与规则相结合,借助于显式实体关系对隐式实体关系进行推理. 首先,利用...
  • 基于依存句法分析的开放式中文实体关系抽取

    万次阅读 热门讨论 2018-04-26 08:42:12
        这一段时间一直在做知识图谱,卡在实体关系抽取这里几个月了,在github上面看到有人使用卷积神经网络训练模型进行抽取,自己也尝试了一下,但是一直苦于没有像样数据去训练,而标注训练又太费时间了,我不...

    文章首发于 Guanngxu 的个人博客如何抽取实体关系?——基于依存句法分析的事实三元组抽取

        这一段时间一直在做知识图谱,卡在实体关系抽取这里几个月了,在github上面看到有人使用卷积神经网络训练模型进行抽取,自己也尝试了一下,但是一直苦于没有像样数据去训练,而标注训练集又太费时间了,我不太愿意干体力活。所以采用了一个低档次的方法,基于依存句法分析的实体关系抽取,记录一下心得,方便日后忘记可以再找回来。

        本方法参考了github上面的项目和一篇论文,在文章末尾给出,使用的分词工具是HanLP,感谢相关作者。

        论文给出了8种中文关系的表达方式,并且最后给出了一个采用正则表达式语法指出表达,核心就是谓语动词表示关系,即关系表述中一定得有动词。

    状语*动词+补语?宾语?
    

        我不太赞同把宾语也当作关系表述的一部分,论文指出“p4生于山西”应该抽出(p4,山西,生于山西),我认为关系不应该表述为“生于山西”,所以我把关系表述改为下面的样子了。

    状语*动词+补语?
    

        这篇文章只是作为一个方法介绍,我自己先看了一遍,能够保证我下次看到这篇文章,可以立马回忆起自己的实现方法,希望你看了也能了解方法,看不懂的话,我表示抱歉,浪费您的时间了,我已经尽可能写到简单了。

        先来看几个简单句子吧:

    主谓宾关系:刘小绪 生于 四川
    // 这个三元组很明显:(刘小绪,生于,四川)
    
    
    动补结构:刘小绪 洗 干净 了 衣服
    // 如果套用主谓宾关系就是:(刘小绪,洗,衣服)
    // 但是这里描述的是一个状态,是刘小绪把衣服洗干净了
    // “干净”是动词“洗”的补语,所以还应该提取出一个如下三元组
    // (刘小绪,洗干净了,衣服)
    
    状动结构:父亲 非常 喜欢 跑步
    // 这句和上面很像,主谓宾关系是:父亲喜欢跑步
    // “非常”用于修饰“喜欢”
    // (父亲,非常喜欢,跑步)
    
    介宾关系:刘小绪 就职 于 学校
    // 如果直接把这个三元组抽取为(刘小绪,就职,学校),很别扭
    // “于”和“学校”是介宾关系,它们的关系应该是:就职于
    // (刘小绪,就职于,学校)
    
    宾语前置:海洋 由 水 组成
    // “海洋”是“组成”的前置宾语
    // “由”是“组成”的状语
    // “水”和“由”是介宾关系
    // 所以上面的句子没有明确的主谓关系,需要我们判断
    // 抽出的三元组应该为:(水,组成,海洋)
    

        HanLP提供了两种依存句法分析的器,默认采用的是基于神经网络的依存句法分析器。依存句法分析就是将句子分析成一棵依存句法树,描述各个词语之间的依存关系,即指出词语之间在句法上的搭配关系。

        有了上面所说的依存句法树,其实我们只需要进行各种判断就可以了。先做出下面的一点说明,就拿第一个例子来说。

    原文:刘小绪生于四川
    
    # 这是分词结果
    [刘小绪/nr, 生于/v, 四川/ns]
    
    #这是句法分析结果
    刘小绪 --(主谓关系)--> 生于
    生于 --(核心关系)--> ##核心##
    四川 --(动宾关系)--> 生于
    

        为了方便理解,也为了方便程序的编写,我把他们组织成了下面的形式,为每一个词语都建一个依存句法字典。

    刘小绪:{}
    生于:{主谓关系=[刘小绪], 动宾关系=[四川]}
    四川:{}
    

        然后只需要写出类似于下面的程序段就可以抽出关系了。

    // 主谓宾关系:刘小绪生于四川
    // dic是这个词语的依存句法字典
    if (dic.containsKey("主谓关系") && dic.containsKey("动宾关系")){
        
        // 当前的词语,用上面的例子来说,relation=“生于”
        String relation = curWord.LEMMA;
    
    
        // 用循环遍历,是因为关系列表里面不一定只有一个词语
        for (CoNLLWord entity1:
                dic.get("主谓关系")) {
    
            for (CoNLLWord entity2:
                    dic.get("动宾关系")) {
    
                System.out.println(entity1.LEMMA + "," + relation + "," + entity2.LEMMA);
            }
    
        }
    }
    

        对于分词后的每个词语都进行上面程序段的操作。“刘小绪”和“四川”,关系字典都为空。而对于“生于”,关系列表里面既有主谓也有动宾,而自己本身就是动词,主谓宾就出来了。直接从主谓关系中拿出来词语作为entity1,再拿上自己作为关系,最后拿出动宾关系中的词语作为entity2。很明确的三元组(刘小绪,生于,四川)就出来了。

        最后给出一个程序运行结果图吧。

        我个人觉得效果还行,在简单句子上面表现的差强人意,在长句子上面表现的差劲。

        参考:

    HanLP自然语言处理

    基于依存分析的开放式中文实体关系抽取方法

    命名实体三元组抽取参考自fact_triple_extraction

    展开全文
  • 实体关系抽取——ACE2005数据介绍

    千次阅读 2019-08-07 22:29:37
    ACE2005数据介绍...ACE2005数据集包括英语,阿拉伯语和中文三部分数据,可以用来做实体,关系,事件抽取等。 English part English部分包括了broadcast news(bn), broadcast conversations(bc), newswire(...

    overall

    ACE2005数据集包括英语,阿拉伯语和中文三部分数据,可以用来做实体,关系,事件抽取等。

    English part

    English部分包括了broadcast news(广播新闻)(bn), broadcast conversations(广播谈话)(bc), newswire(新闻专线)(nw), weblog(网站博客)(wl), usenet(新闻组)(un), conversational telephone speech(电话对话语音)
    cts)共6个领域。

    relation

    共定义了7种unidirectional relation,11种dirctional relation(如果考虑实体之间的顺序)。

    chinese part

    arabic part

    展开全文
  • 前面写过一片实体抽取的入门,实体关系抽取就是在实体抽取的基础上,找出两个实体...中文实体关系抽取的数据实在是太难找了,我现在只有忘记在哪里找到的一个人物关系数据集。希望同学们能分享一些其他的数据集。...
  • 为了有效地降低特征向量的维数避免维数灾难,并尽可能去除噪声特征以提高关系抽取的准确率,提出一种基于动词和名词抽取与χ2统计量法( CHI) 相结合的特征选择方法,并使用TF-IDF计算特征权重。通过SVM 分类器进行...
  • 为了有效地降低特征向量的维数避免维数灾难,并尽可能去除噪声特征以提高关系抽取的准确率,提出一种基于动词和名词抽取与χ2统计量法(CHI)相结合的特征选择方法,并使用TF-IDF计算特征权重。通过SVM分类器进行...
  •   利用笔者自己收集的3881个样本,对人物关系抽取进行尝试。人物关系共分为14类,如下: { "unknown": 0, "夫妻": 1, "父母": 2, "兄弟姐妹": 3, "上下级": 4, "师生": 5, "好友": 6, "同学": 7, "合作":...
  • 一方面是因为关系抽取任务的复杂性,目前数据集较少,且标注的成本极高,尤其是中文数据集,所以针对该任务的数据集屈指可数,这也限制了这方面的研究。另一方面,关系抽取任务的复杂性,程序多数不可通用。github上...
  • 事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件...本资源对近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数...
  • 旨在收集NLP中常见任务的开源解决方案、数据集、工具、学习资料等,方便学习或快速查找。在此分享出来,供大家参考。欢迎积极分享并Star,谢谢! 会持续不定时更新,也欢迎加入共同分享。 1、机器学习&深度学习...
  • Chinese_medical_NLP 医疗NLP领域(主要关注中文) 评测数据集 与 论文等相关资源。...4.医学关系抽取 5.医学知识图谱 6.辅助诊断 7.ACL2020医学领域相关论文列表 8.医疗实体Linking(标准化) 9. AAAI2020
  • 实体关系抽取:BiLSTM + Attention (含代码+详细注释)

    千次阅读 热门讨论 2019-10-26 12:06:28
    本文采用的是一份中文数据集(数据质量不高,我们主要目的是展现实体关系抽取过程,掌握方法后可以用于高质量数据集上) 每个样例格式如下: 实体1 实体2 实体间关系 句子xxxxxxxxxxxxxxxxx 示例: 郭全宝 郭...
  • 本文整理了中文自然语言处理相关开放任务,详细任务说明,数据集,相关评价指标,以及当前最佳结果整理。涉及指代消歧 ,对话状态管理,情绪分类,实体链接 ,实体标注 (Entity Tagging),语言模型 ,机器翻译 ,...
  • 比赛会有成绩的提交,跟算法与数据清洗都有关系,也就是特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 特征工程是使用专业背景知识技巧处理数据,使得特征能在机器学习算法上发挥更好...
  • 3.研究如何从大规模的互联网文本中抽取知识图谱形式的知识,提出一种基于自监督机器学习的开放中文关系抽取方法,用于抽取实体(概念)之间的同义关系、上下位关系和属性关系。该方法的主要优势在于能够使用从结构化数据...
  • 中文新闻短标题文本数据集。具体实体已标注。训练集验证集测试集已区分。Json格式。特点:中文标题 、超短文本、不规则、实体识别 关系抽取 。用途:可用于弹幕分析、新实体识别。
  • 书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括: 分布式文件系统以及Map-Reduce工具; 相似性搜索; 数据流处理以及针对易丢失数据等特殊情况的专用处理算法; 搜索引擎...
  • 书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括: 分布式文件系统以及Map-Reduce工具; 相似性搜索; 数据流处理以及针对易丢失数据等特殊情况的专用处理算法; 搜索引擎...
  • 数据集下载网址: 。   本文将会介绍笔者在2019语言与智能技术竞赛的三元组抽取比赛方面的一次尝试。由于该比赛早已结束,笔者当时也没有参加这个比赛,因此没有测评成绩,我们也只能拿到训练集和验证集。但是,这...
  • RE2020.txt

    2020-05-20 16:31:15
    该数据集是百度2020关系抽取数据集,包括训练集、验证集和测试集、schema.json。本次竞赛数据集共包含 48个已定义好的schema和超过21万中文句子,其中包括17万训练集,2万验证集和2万测试集.
  • 采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练和测试上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。
  • hive编程指南中文

    2014-07-30 19:59:47
    通过本书,读者可以很快学会如何使用Hive的SQL方言——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大型数据集。 本书以实际案例为主线,详细介绍如何在用户环境下安装和配置Hive,并对Hadoop和...
  • 提出一种在大规模微博短文本数据集中自动...在新浪微博数据集上进行实验,实现了对微博中新闻话题的识别。该方法能较好检测出当前时间的热门话题,能够在一定程度上有效地避免错误传播,实验结果验证了该方法的有效性。
  • 知识图谱中的实体及关系定义二>

    千次阅读 2020-08-09 18:06:05
    例如,对于中文地理领域实体,以《中国大百科全书–中国地理》和《百度百科》地理词条信息为数据源,参照英文标准数据集 SemEval-2010 Task-8 的数据格式,人工构建了适用于地理实体抽取语料库。 在金融实体中,对...

空空如也

空空如也

1 2 3 4
收藏数 65
精华内容 26
关键字:

中文关系抽取数据集