精华内容
下载资源
问答
  • 关系抽取数据集

    2021-04-14 16:33:54
    医疗相关的数据集: I2B2数据集,其中2010年的数据和关系抽取相关 ...GAD 疾病和基因相关的关系抽取数据集 EU-ADR疾病和基因相关的关系抽取数据集 !!!之后有时间补一下对各个数据集的介绍吧! ...

     NYT-10 SemEval2010  详见这篇文件:https://zhuanlan.zhihu.com/p/189254722

    医疗相关的数据集:

    I2B2数据集,其中2010年的数据和关系抽取相关

    GAD 疾病和基因相关的关系抽取数据集

    EU-ADR 疾病和基因相关的关系抽取数据集

    !!!之后有时间补一下对各个数据集的介绍吧!

    展开全文
  • SemEval2010 任务8 实体关系抽取数据集 已经标注的语料 SemEval2010 任务8 实体关系抽取数据集 已经标注的语料
  • 史上最大实体关系抽取数据集

    千次阅读 2019-06-28 16:51:35
    史上最大实体关系抽取数据集 | 清华发布 2019-03-23 08:00 本文转载自微信公众号:AI科技评论 AI 科技评论按,在去年的 EMNLP2018 上,由孙茂松教授领导的清华大学自然语言处理实验室发布了一个大规模精标注关系...

    史上最大实体关系抽取数据集 | 清华发布 

    2019-03-23 08:00

    本文转载自微信公众号:AI科技评论

    AI 科技评论按,在去年的 EMNLP2018 上,由孙茂松教授领导的清华大学自然语言处理实验室发布了一个大规模精标注关系抽取数据集 FewRel。据了解,这是目前最大的精标注关系抽取数据集。

    该数据集包含 100 个类别、70,000 个实例,全面超越了以往的同类精标注数据集。FewRel 不仅可以应用在经典的监督/远监督关系抽取任务中,在新兴的少次学习(few-shot learning)任务上也有极大的探索价值和广阔的应用前景。

    团队还发布了论文《FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation》,该论文由清华大学自然语言处理实验室的博士生韩旭、姚远,本科生朱昊、于鹏飞、王子云共同合作完成。文章对 FewRel 数据集的构造原理给出了详细解释,感兴趣的童鞋可以点击下面的论文地址阅读原文:

    关系抽取(relation extraction)是自然语言处理中的一项重要任务,其通过从纯文本中抽取关系事实,来构建和扩充知识图谱(knowledge graph)。例如,从句子「马云创办了阿里巴巴」中,可以抽取出关系事实(马云, 创始人, 阿里巴巴),其中马云和阿里巴巴被称为实体(entity),而创始人则是他们的关系(relation)。关系抽取是知识获取的重要途径,对于理解自然语言和理解世界知识意义重大。

    目前的关系抽取模型面临着一个极大的问题:训练数据不足。相比计算机视觉中的相关任务,语言相关的标注更加困难,需要标注者掌握相应的知识。就如下表 1 中所示,已有精标注关系抽取数据集在关系数量和实例数量上都较少,这极大限制了关系抽取的发展。

    表 1:常用精标关系抽取数据集对比

    作为目前关系抽取领域最大的精标注数据集,FewRel 中有 100 类关系,共 70,000 个实例,是很好的实验数据集。此前,加州大学圣巴巴拉分校计算机科学系助理教授王威廉实验室与IBM合作的 NAACL 2019 论文 Sentence Embedding Alignment for Lifelong Relation Extraction 就用到了这个数据集。(论文查看地址:http://t.cn/EMQDhMb)

    FewRel 是以 Wikipedia 作为语料库,以 Wikidata 作为知识图谱构建的。

    图 1: Wikidata 和 Wikipedia(图来自 Wikidata 和 Wikipedia 官网)

    Wikipedia 作为互联网上的自由百科全书,因其巨大的体量和蕴含的丰富知识而备受 NLP 学者青睐。与其相对应的知识图谱 Wikidata,则是 Wikipedia 中知识的结构化。目前 Wikidata 中已有超过 5000 万个实体,千余种关系。

    清华大学自然语言处理实验室数据集团队首先利用这两者构造了一个远监督的数据集。那么,什么是远监督?知识图谱中已经包含了许多实体以及他们之间的关系,我们可以假设,若两个实体 h 和 t 间有关系 r,而一个句子中同时出现了 h 和 t,则该句子表达了它们之间的关系 r。通过这种方法可以自动获得大规模的标注数据,然而这一数据是充满噪声的,几乎无法直接用来训练模型。在远监督数据集的基础上,去掉出现重复实体对的句子,去掉少于 1000 个样本的类,最终留下 122 类,共 122,000 个实例,然后进行人工标注。

    在这一过程中,每个实例都会有多个标注员进行标注,通过冗余保证标注质量。在此之后再进行一轮质量筛选,最后留下 100 类,共 70,000 句高质量标注的关系抽取数据。最终数据集中,每句的平均长度为 24.99,一共出现 124,577 个不同的单词/符号。

    据了解,FewRel 的意义不仅仅是一个大规模的数据集。因为关系数量的众多,学界可以在 FewRel 上进行更多维度的探索,其中很重要的一个方向就是少次学习(few-shot learning)。人可以接触很少的例子而学会认知一种新的事物,从这一点出发,深度学习模型能否具备从少量样本中快速学习的能力呢?目前在 CV 领域已有了很多这方面的尝试,但在 NLP 当中,尤其是关系抽取上,还缺乏类似的探索。尤其因为以往的关系抽取数据集关系数量和实例数量较少,而通常 few-shot 模型需要在大规模数据上预训练,需要在类别较多的数据上做 sample 评测,所以很难开展相关工作。

    FewRel 的出现打开了少例关系抽取的大门,其名字中的 Few 也正是取自 Few-shot。通过下面的表 2 我们可以看到,FewRel 与 CV 中的 few-shot 数据集 mini-ImageNet 具有相同的规模,可见其足以支撑相关的研究。

    表 2:FewRel 与两个 CV 中 Few-Shot 数据集对比

    除此之外,FewRel 还可以帮助科研人员进行需要较多关系类别的相关研究,终身学习(lifelong learning)就是其中一个方向。目前大部分关系抽取模型都是在预先定义好的类别中进行探索,而我们知道,世界知识是不断增长的,关系数量也不是停滞的,如何让一个模型能不断接收新的训练样本,同时不至遗忘之前的知识,是一个十分值得探索的课题。而相关实验需要有大量关系类别的精标数据,FewRel 正好满足条件。

    据了解,未来 FewRel 团队还将公开其构建数据集时所使用的基于 Wikipedia 的远监督数据,将远监督数据与精标数据相结合,研究人员可以进一步探索远监督的降噪机制,以及如何使用两种数据进行半监督学习。

    由于精标数据可以被视作「种子」,远监督数据可以被看作巨大的语料库,FewRel 还可以用在主动学习(active learning)和自启动算法(bootstrapping)方面的研究中。然而,近几年来,在关系抽取领域少有人进行类似探索,其原因就是数据集的缺乏。伴随着 FewRel 的出现,相信接下来这些重要方向的研究必然会有所推进。

     

     

    ================================================================================================================================================================================================================================================================================================

     

     

     

    关系抽取常用的数据集和工具

    2018年05月03日 21:20:17 长弓Smile 阅读数 4095更多

    个人分类: 信息抽取与问答系统

    参考文献:张春云. 实体关系抽取算法研究[D]. 北京邮电大学, 2015.

    数据集: 
    1.MUC关系抽取任务数据集 
    MUC-7的五大评测任务分别是命名实体识别、共指消解、模板元素填充、模板关系确定和场景模板填充。数据语料主要来自新闻语料,限定领域为飞机失事报道和航天器发射事件报道。

    2.ACE关系抽取任务数据集 
    MUC会议停开后,ACE将关系抽取任务作为一个子任务从2002至2007年共持续六年。关系抽取任务也被定义的更加规范和系统。其中,获得认可的一届关系抽取任务主要是ACE-2004,其数据来源于语言数据联盟(LDC),分成广播新闻和新闻专线两部分,总共包括451和文档和5702个关系实例。ACE20014提供了丰富的标注信息,从而为信息抽取中的实体识别、指代消解和关系抽取等子任务提供基准的训练和测试语料库。

    3.TAC-KBP数据集 
    TAC会议下的KBP评测下的ESF任务,可以视作是传统的关系抽取任务。该任务主要是抽取关于PER的25中属性和ORG的16中属性。主要是使用维基百科快照作为现有的知识库,从现有的新闻或者网络文本中获取关于实体的现有信息和更新信息,以构建知识库。

    工具: 
    1.Standford CoreNLP 自然语言处理工具包,能实现对自然语言文本的文本分析,包括词形还原,词性标注、命名实体标注、共指消解、句法分析以及依存分析等功能。

    2.自然语言工具包(Natural Language Tookit,NLTK) 
    基于脚本语言Python的自然语言处理工具包,该工具包集成了一些文本处理技术,例如中文分词、词形还原、文本分类等,并涉及50多种语料和字典的交互界面。

    3.OpenCCG 
    指开放式自然语言CCG文库,基于Java的开源自然语言处理文库,能够实现基于Mark Steedman的组合的范畴语法形式为主的文本解析,包括句法分析和依存分析。

    评测标准: 
    精准率、召回率和F值

    展开全文
  • 关系抽取数据集介绍

    千次阅读 2020-03-05 16:55:24
    最近由于实验需要,收集整理了关系抽取方向的数据集,主要包括SemEval、Wiki80、NYT10。目前来说全监督的关系抽取任务一般在SemEval上做,远程监督的关系抽取任务一般在NYT10上做。 SemEval 数据集来源 SemEval数据...

    最近由于实验需要,收集整理了关系抽取方向的数据集,主要包括SemEval、Wiki80、NYT10。目前来说全监督的关系抽取任务一般在SemEval上做,远程监督的关系抽取任务一般在NYT10上做。

    SemEval

    数据集来源

    SemEval数据集来自于2010年的国际语义评测大会中Task 8:” Multi-Way Classification of Semantic Relations Between Pairs of Nominals “

    数据集介绍

    任务:对于给定了的句子和两个做了标注的名词,从给定的关系清单中选出最合适的关系。
    数据集中一共包含9+1个关系,各类数据的占比如下图所示:
    在这里插入图片描述实际下载到的数据集来源自:https://github.com/thunlp/OpenNRE/tree/master/benchmark,格式均为json

    SemEval 文件夹中包含四个文件:

    semeval_rel2id.json:各类关系及其索引的对照标,这里面同一种关系由于两个实体e1、e2的前后位置不同分成了两个关系(例如“Product-Producer(e2,e1)&Product-Producer(e1,e2))所以算上关系”Other”一共是(0-18)19种关系.

    semeval_train.txt & semeval_val.txt:原始的SemEval-Task-8数据集中一共有8000个样本作为train,但是这里得到的数据集是将原始的train分割成了train(6507个样本)以及val(1493个样本)均为json格式,且同一关系的样本分布在一起。

    semeval_test.txt:与train以及val中的样本格式一致,包含2717个样本

    样本格式:
    例子:{“token”: [“trees”, “grow”, “seeds”, “.”], “h”: {“name”: “trees”, “pos”: [0, 1]}, “t”: {“name”: “seeds”, “pos”: [2, 3]}, “relation”: “Product-Producer(e2,e1)”}

    其中包含四个键:
    “token”:标记处理后的句子
    “h”:样本中的头实体的名字以及位置
    “t”:样本中的尾实体的名字以及位置
    “relation”:样本中两个实体的关系,例子中关系是Product-Producer(e2,e1),表示实体1(头实体)是Producer,实体2(尾实体)是Product.

    semeval数据集采用人工精标,不包含噪声

    参考

    数据官网:http://semeval2.fbk.eu/semeval2.php?location=tasks#T11
    数据来源:https://github.com/thunlp/OpenNRE/tree/master/benchmark
    数据统计:https://blog.csdn.net/qq_29883591/article/details/88567561

    Wiki80

    数据集来源

    根据OpenNRE上的原文(We also provide a new dataset Wiki80, which is derived from FewRel.)来看Wiki80是由清华发布的数据集FewRel上提取的。

    数据集介绍

    任务:对于给定了的句子和两个做了标注的名词,从给定的关系清单中选出最合适的关系。
    数据集中一共包含80中关系,经统计各个关系个数均为700,合计56000个样本。

    关系 个数
    place served by transport hub 700
    mountain range 700
    religion 700
    participating team 700
    contains administrative territorial entity 700
    head of government 700
    country of citizenship 700
    original network 700
    heritage designation 700
    performer 700
    participant of 700
    position held 700
    has part 700
    location of formation 700
    located on terrain feature 700
    architect 700
    country of origin 700
    publisher 700
    director 700
    father 700
    developer 700
    military branch 700
    mouth of the watercourse 700
    nominated for 700
    movement 700
    successful candidate 700
    followed by 700
    manufacturer 700
    instance of 700
    after a work by 700
    member of political party 700
    licensed to broadcast to 700
    headquarters location 700
    sibling 700
    instrument 700
    country 700
    occupation 700
    residence 700
    work location 700
    subsidiary 700
    participant 700
    operator 700
    characters 700
    occupant 700
    genre 700
    operating system 700
    owned by 700
    platform 700
    tributary 700
    winner 700
    said to be the same as 700
    composer 700
    league 700
    record label 700
    distributor 700
    screenwriter 700
    sports season of league or competition 700
    taxon rank 700
    location 700
    field of work 700
    language of work or name 700
    applies to jurisdiction 700
    notable work 700
    located in the administrative territorial entity 700
    crosses 700
    original language of film or TV show 700
    competition class 700
    part of 700
    sport 700
    constellation 700
    position played on team / speciality 700
    located in or next to body of water 700
    voice type 700
    follows 700
    spouse 700
    military rank 700
    mother 700
    member of 700
    child 700
    main subject 700
    合计 56000

    Ps:这里56000个是val与train一起统计的

    Wiki80 文件夹中共包含3个文件:

    Wiki80_rel2id.json : 关系及其索引的对照表,合计80个关系,和Semeval中的不同,这里面的关系不包含实体的前后关系。

    Wiki80_train.txt & wiki80_val.txt : trian(50400个样本)、val(5600个样本)合计56000个样本。

    数据集中不包含测试集

    样本格式:
    例子:{“token”: [“Vahitahi”, “has”, “a”, “territorial”, “airport”, “.”], “h”: {“name”: “territorial airport”, “id”: “Q16897548”, “pos”: [3, 5]}, “t”: {“name”: “vahitahi”, “id”: “Q1811472”, “pos”: [0, 1]}, “relation”: “place served by transport hub”}

    样本的格式同semeval中的几乎一致,但是在头实体和尾实体中加入了id这一属性。

    Wiki80数据集采用人工精标,不包含噪声

    参考:
    数据来源:https://github.com/thunlp/OpenNRE/tree/master/benchmark
    数据参考:https://opennre-docs.readthedocs.io/en/latest/get_started/benchmark
    数据统计:自测

    NYT10

    数据集来源:

    NYT10是在基于远程监督的关系抽取任务上最常用的数据集,NYT10数据集来自于10年的论文Modeling Relations and Their Mentions withoutLabeled Text,是由NYT corpus 同Freebase远程监督得到:
    在这里插入图片描述## 数据集介绍
    任务:对于给定了的句子和两个做了标注的名词,从给定的关系清单中选出最合适的关系。
    数据集中一共包含52+1(包括NA)个关系,各个关系在样本中的分布如下:

    relations size_of_train size_of_test
    /location/fr_region/capital 1 0
    /location/cn_province/capital 2 0
    /location/in_state/administrative_capital 4 0
    /base/locations/countries/states_provinces_within 0 1
    /business/company/founders 901 95
    /people/person/place_of_birth 4053 162
    /people/deceased_person/place_of_death 2422 68
    /location/it_region/capital 22 0
    /people/family/members 4 0
    /people/profession/people_with_this_profession 2 0
    /location/neighborhood/neighborhood_of 9275 68
    NA 385664 166004
    /location/in_state/legislative_capital 4 0
    /sports/sports_team/location 294 10
    /people/person/religion 202 6
    /location/in_state/judicial_capital 3 0
    /business/company_advisor/companies_advised 2 8
    /people/family/country 6 0
    /time/event/locations 4 4
    /business/company/place_founded 648 20
    /location/administrative_division/country 7286 424
    /people/ethnicity/included_in_group 7 0
    /location/br_state/capital 4 2
    /location/mx_state/capital 1 0
    /location/province/capital 39 11
    /people/person/nationality 9733 723
    /business/person/company 7336 302
    /business/shopping_center_owner/shopping_centers_owned 1 0
    /business/company/advisors 9 8
    /business/shopping_center/owner 1 0
    /location/country/languages_spoken 0 3
    /people/deceased_person/place_of_burial 24 9
    /location/us_county/county_seat 110 23
    /people/ethnicity/geographic_distribution 86 136
    /people/person/place_lived 8907 450
    /business/company/major_shareholders 328 46
    /broadcast/producer/location 71 0
    /location/us_state/capital 798 39
    /broadcast/content/location 8 0
    /business/business_location/parent_company 19 0
    /location/jp_prefecture/capital 2 0
    /film/film/featured_film_locations 18 2
    /people/place_of_interment/interred_here 24 9
    /location/de_state/capital 7 0
    /people/person/profession 10 0
    /business/company/locations 19 0
    /location/country/capital 8883 553
    /location/location/contains 66721 2793
    /people/person/ethnicity 148 13
    /location/country/administrative_divisions 7286 424
    /people/person/children 622 30
    /film/film_location/featured_in_films 18 2
    /film/film_festival/location 4 0
    合计 522043 172448

    NYT10文件夹中包含4个文件:

    Nyt10_rel2id.json : 包含53个关系及其各自对应的索引

    Nyt10_train.txt : 包含466876个样本

    Nyt10_val.txt : 包含55167个样本

    Nyt10_test.txt : 包含172448个样本

    Ps:NYT10的数据集是通过远程监督得到的,所以样本的是根据包的形式分布的及含有相同实体的数据集分布在一起。

    样本格式:
    例子:
    {“text”: “Hundreds of bridges were added to the statewide inventory after an earthquake in 1994 in Northridge , a suburb of Los Angeles .”, “relation”: “/location/neighborhood/neighborhood_of”,“h”:{“id”:"/guid/9202a8c04000641f800000000008fe6d", “name”: “Northridge”, “pos”: [89, 99]}, “t”: {“id”: “/guid/9202a8c04000641f80000000060b2879”, “name”: “Los Angeles”, “pos”: [114, 125]}}

    与Wiki80的样本格式相似,区别在于NYT10的文本没有进行标记处理。

    NYT10数据集采用远程监督得到,包含噪声。

    参考

    数据来源:https://github.com/thunlp/OpenNRE/tree/master/benchmark
    相关论文:https://link.springer.com/content/pdf/10.1007%2F978-3-642-15939-8_10.pdf
    数据统计:自测

    这里面所有的数据都来自于thunlp,另外比较常用的数据集:TACRED、ACE 2005官网上下载均需要LDC账号。如有大佬愿意提供,不胜感谢!

    展开全文
  • SemEval2010 task8的数据集,其中论文《Relation Classification via Convolutional Deep Neural Network》用的就是该数据集。其中论文主要目标是关系抽取
  • SemEval2010 任务8 实体关系抽取数据集 已经标注的语料 从其他地方整理过来,欢迎下载使用!
  • 最近拿到一个关系抽取数据集,[TACRED](https://nlp.stanford.edu/projects/tacred/),分析了一波单条数据、关系分布等,分享一下分析思路和代码。

    目录

    【数据集分析】TACRED关系抽取数据集分析(一)—— 理解单条实例
    【数据集分析】TACRED关系抽取数据集分析(二)—— 统计类别和实例数
    【数据集分析】TACRED关系抽取数据集分析(三)—— Relation Distribution
    【数据集分析】TACRED关系抽取数据集分析(四)—— train set 和 valid set中是否有重复数据

    最近拿到一个关系抽取数据集,TACRED,分析了一波单条数据、关系分布等,分享一下分析思路和代码。

    1. 单条实例分析

    {'label': 'org:founded',
     'text': 'Zagat Survey , the guide empire that started as a hobby for Tim and Nina Zagat in 1979 as a two-page typed list of New York restaurants compiled from reviews from friends , has been put up for sale , according to people briefed on the decision .',
     'ents': [['Zagat', 1, 5, 0.5], ['1979', 82, 86, 0.5]],
     'ann': [['Q140258', 0, 12, 0.57093775], ['Q7804542', 60, 78, 0.532475]]}
    

    可以看到一个instance的格式为json格式,分别是:

    {‘label’: ‘’, ’ ',
    ‘text’: ’ ',
    ‘ents’: [[头实体, 头实体起始位置, 头实体结束位置, ], [尾实体, 尾实体起始位置, 尾实体结束位置, ]]}

    我将数据转化成了一个我喜欢的格式以及key值的命名,这样取数据时对于我就会比较方便,你也可以转换一下,因为我后面几节的分析是基于转化了格式的数据集的数据。

    dictkey值如下:

    {“text”: , “relation”: , “h”: {“id”: , “name”: , “pos”: }, “t”: {“id”: , “name”: , “pos”: }}

    转化后一个instance如下:

    {
        "text":"Zagat Survey , the guide empire that started as a hobby for Tim and Nina Zagat in 1979 as a two-page typed list of New York restaurants compiled from reviews from friends , has been put up for sale , according to people briefed on the decision .",
        "relation":"org:founded",
        "h":{
            "id":"0",
            "name":"Zagat",
            "pos":[
                1,
                5
            ]
        },
        "t":{
            "id":"1",
            "name":"1979",
            "pos":[
                82,
                86
            ]
        }
    }
    
    

    NOTE:

    1. instance的结构组成:由{句子,h,t}三部分。其中 h 和 t 也是dict,该dict包含三部分{id,name,pos}。
    2. 原数据集合没有h和d的id,因此我分别赋予了0,1给这两个值,在 h 和 t 中我添加了一个pos,意义是头实体或者尾实体的在句子中的position。
    3. 其实dict类型可以用json相互转化,存储和读取比较规范。

    2. 代码

    import json
    train_rel_fre_dict = {}
    train_data = {}
    temp1 = {}
    temp2 = {}
    def convert_dataset(old_path, new_path):
        with open(new_path, 'w', encoding = 'utf-8') as f_op:
            with open(old_path, 'r', encoding = 'utf-8') as f:
                for i in json.load(f):
                    train_data['text'] = i['text']
                    train_data['relation'] = i['label']
                    temp1['id'] = '0'
                    temp1['name'] = i['ents'][0][0]
                    temp1['pos'] = [i['ents'][0][1], i['ents'][0][2]]
                    train_data['h'] = temp1
                    temp2['id'] = '1'
                    temp2['name'] = i['ents'][1][0]
                    temp2['pos'] = [i['ents'][1][1], i['ents'][1][2]]
                    train_data['t'] = temp2
                    json.dump(train_data, f_op)
                    f_op.write('\n')
    
    convert_dataset(train_path, 'tacred_train.txt')
    convert_dataset(valid_path, 'tacred_valid.txt')
    convert_dataset(test_path, 'tacred_test.txt')
    

    参考感谢

    [1] TACRED官网:https://nlp.stanford.edu/projects/tacred/

    展开全文
  • 最近拿到一个关系抽取数据集,nyt-wiki,分析了一波分布、重合等,分享一下分析思路和代码。本节进行单条数据分析。
  • 数据集主要提供对数据结构学科知识图谱的构建,主要包含500+数据结构方面的知识实体,9种关系,176000+示例,16000+实体对,已标注好3676个实体对关系。通过模型学习已标注的实体对来对未知实体对进行关系抽取,...
  • ACE05 关系抽取数据集

    千次阅读 2019-11-27 16:59:48
    ACE05 自然语言信息抽取数据集 简介 数据集概述 提供已经标注好的多种类型实体,关系和事件,目前该数据集主要用于事件抽取任务中 有中文、英文和阿拉伯文的数据 标注说明 标注过程如下 先进行1P和DUAL两轮...
  • 雷锋网 AI 科技评论按,在去年的 EMNLP2018 上,清华大学自然语言处理实验室发布了一个大规模精标注关系抽取数据集 FewRel。据了解,这是目前最大的精标注关系抽取数据集。 据清华大学自然语言处理实验室的刘知远...
  • 基于几个可用的NER和RE数据集定义了7个实体标签和9个关系标签。实体(Entity):每个实体都由带有多个属性的T标签标识。关系(Relation):每个关系由R标签标识,该标签可以具有多个属性。
  • 有些数据集和很不规范,train set和valid set 会有重复数据,造成数据的泄露,当然,TACRED应该不会有这个问题,因为它是关系抽取数据集中大家认可度很高的数据集合,这里分享一下分析的代码。
  • 第二节,获得了三个子集的描述:类别数和实例数。 本节介绍绘制数据集的Relation分布图。
  • 真实关系的列表存在key中,预测关系的列表存在prediction中,从dev数据集中获取样本,以tacred为例,包含两万多条记录。以真实label存储,不是one-hot。 在该评价方法中,也有TP,FP,TN,FN的概念,positive就代表...
  • 第一节,我们查看了每条数据的组成,并将每条数据都规范了自己喜欢的Json格式,方便后续操作对数据的取用。 本节统计一下数据集关系数和实例数。
  • 本节主要介绍用Matlibplot绘制关系分布图,更加直观展示数据集的分布。

空空如也

空空如也

1 2 3 4 5 ... 19
收藏数 371
精华内容 148
关键字:

关系抽取数据集