精华内容
下载资源
问答
  • 是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的...

    SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。

    Features • 中文分词(Character-Based Generative Model) • 词性标准(TnT 3-gram 隐马) • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决) • 文本分类(Naive Bayes) • 转换成拼音 • 繁体转简体 • 提取文本关键词(TextRank算法) • 提取文本摘要(TextRank算法) • tf,idf • Tokenization(分割成句子) • 文本相似(BM25) • 支持python3(感谢erning)   Get It now $ pip install snownlp

    demo:

    from snownlp import SnowNLP s = SnowNLP(u‘这个东西真心很赞‘)

    s.words         # [u‘这个‘, u‘东西‘, u‘真心‘,                 #  u‘很‘, u‘赞‘]

    s.tags          # [(u‘这个‘, u‘r‘), (u‘东西‘, u‘n‘),                 #  (u‘真心‘, u‘d‘), (u‘很‘, u‘d‘),                 #  (u‘赞‘, u‘Vg‘)]

    s.sentiments    # 0.9830157237610916 positive的概率

    s.pinyin        # [u‘zhe‘, u‘ge‘, u‘dong‘, u‘xi‘,                 #  u‘zhen‘, u‘xin‘, u‘hen‘, u‘zan‘]

    s = SnowNLP(u‘「繁體字」「繁體中文」的叫法在臺灣亦很常見。‘)

    s.han           # u‘「繁体字」「繁体中文」的叫法                 # 在台湾亦很常见。‘

    text = u‘‘‘ 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。 它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 自然语言处理是一门融语言学、计算机科学、数学于一体的科学。 因此,这一领域的研究将涉及自然语言,即人们日常使用的语言, 所以它与语言学的研究有着密切的联系,但又有重要的区别。 自然语言处理并不是一般地研究自然语言, 而在于研制能有效地实现自然语言通信的计算机系统, 特别是其中的软件系统。因而它是计算机科学的一部分。 ‘‘‘

    s = SnowNLP(text)

    s.keywords(3)   # [u‘语言‘, u‘自然‘, u‘计算机‘]

    s.summary(3)    # [u‘自然语言处理是一门融语言学、计算机科学、                 #    数学于一体的科学‘,                 #  u‘自然语言处理是计算机科学领域与人工智能                 #    领域中的一个重要方向‘,                 #  u‘而在于研制能有效地实现自然语言通信的计                 #    算机系统‘] s.sentences

    s = SnowNLP([[u‘这篇‘, u‘文章‘],              [u‘那篇‘, u‘论文‘],              [u‘这个‘]]) s.tf s.idf s.sim([u‘文章‘])# [0.3756070762985226, 0, 0]

    更多信息可以浏览项目主页:SnowNLP https://segmentfault.com/a/1190000000362372

    原文:http://www.cnblogs.com/csj007523/p/7975811.html

    展开全文
  • 是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的...

     

    SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。

    Features • 中文分词(Character-Based Generative Model) • 词性标准(TnT 3-gram 隐马) • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决) • 文本分类(Naive Bayes) • 转换成拼音 • 繁体转简体 • 提取文本关键词(TextRank算法) • 提取文本摘要(TextRank算法) • tf,idf • Tokenization(分割成句子) • 文本相似(BM25) • 支持python3(感谢erning)   Get It now $ pip install snownlp

    demo:

    from snownlp import SnowNLP s = SnowNLP(u'这个东西真心很赞')

    s.words         # [u'这个', u'东西', u'真心',                 #  u'很', u'赞']

    s.tags          # [(u'这个', u'r'), (u'东西', u'n'),                 #  (u'真心', u'd'), (u'很', u'd'),                 #  (u'赞', u'Vg')]

    s.sentiments    # 0.9830157237610916 positive的概率

    s.pinyin        # [u'zhe', u'ge', u'dong', u'xi',                 #  u'zhen', u'xin', u'hen', u'zan']

    s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。')

    s.han           # u'「繁体字」「繁体中文」的叫法                 # 在台湾亦很常见。'

    text = u''' 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。 它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 自然语言处理是一门融语言学、计算机科学、数学于一体的科学。 因此,这一领域的研究将涉及自然语言,即人们日常使用的语言, 所以它与语言学的研究有着密切的联系,但又有重要的区别。 自然语言处理并不是一般地研究自然语言, 而在于研制能有效地实现自然语言通信的计算机系统, 特别是其中的软件系统。因而它是计算机科学的一部分。 '''

    s = SnowNLP(text)

    s.keywords(3)   # [u'语言', u'自然', u'计算机']

    s.summary(3)    # [u'自然语言处理是一门融语言学、计算机科学、                 #    数学于一体的科学',                 #  u'自然语言处理是计算机科学领域与人工智能                 #    领域中的一个重要方向',                 #  u'而在于研制能有效地实现自然语言通信的计                 #    算机系统'] s.sentences

    s = SnowNLP([[u'这篇', u'文章'],              [u'那篇', u'论文'],              [u'这个']]) s.tf s.idf s.sim([u'文章'])# [0.3756070762985226, 0, 0]

    更多信息可以浏览项目主页:SnowNLP https://segmentfault.com/a/1190000000362372

    展开全文
  • 将提供中文分词,词性标注,命名实体识别,关键词提取,文本摘要,新词发现,文本相似度,计算器,数字转换,拼音转换,繁简转换等常见的NLP功能。 目录 安装 注意事项默认不安装nlg-yongzhuo, 如果需要该功能自行...
  • 摘要 在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-...

    摘    在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate WebPages )。试验证明,比起其他网页去重算法(I-Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。

    关键词  网页去重算法   特征向量   近似网页   支持向量机

    第一部分介绍现有去重算法;第二部分论述DDW算法设计;第三部分介绍我们的试验结果和对结果的分析;第四部分是结论。

    1  现有近似网页检测算法介绍

    我们大致可以把文本复制检测算法分为两类:基于语法的方法(基于Shingle的方法)和基于语义的方法(基于Term的方法)。

    1.1  基于Shingle的方法

    Shingle是指文档中一组临近的有序词。基于shingle的算法要求从文档中选取一系列shingle,然后把shingle映射到Hash表中,一个shingle对应一个Hash值,最后统计Hash表中相同的shingle数目或者比率,作为判断文本相似度依据。参考文献[5-10]都是常用的基于single的算法。为实现大规模文档的检测,各研究者采用了不同的采样策略,用于减少参加比较的shingle的数量。

    Heintze[8]选取Hash值最小的N个shingle, 并去除频繁出现的shingles。Bharat[6]选取Hash值为25倍数的shingle,每篇文档最多选取400个shingle。Broder[7]将多个single联合起来组成一个supershingle并通过比较supershingle的Hash值计算文档的相似度。尽管supershingle 算法计算量更小,但Broder发现它不适用于短小文档的检测。Fetterly[13]把连续出现的5个词视为一个shingle,每篇文档采样 84个shingle,然后将这些shingle组合为6个supershingle; 具有2个相同supershingles的文档被视为内容相似的文档。吴平博等[9]利用标点符号多数出现在网页文本中的特点,以句号两边各五个汉字作为single来唯一地标识网页。

    对于各种基于shingle的算法,Ye[10]就其参数选择进行了系统研究。

    1.2  基于Term的方法

    基于Term的方法[11-14]采用单个词条作为计算的基本单元。通过计算文档特征向量的余弦值来获得文档的相似度,而不考虑词条出现的位置和顺序。由于采用了许多特征提取(尤其是特征向量的选择)技术,使得基于Term的方法比基于Shingle的算法更为复杂。

    Chowdhury 的I-Match[11]算法通过计算逆文本频率指数(IDF :inverse document frequency)来确定选择哪些词作为特征向量。IDF = log (N/n),其中N 为文档集中文档的数目,n 为包含该关键词的文档的数目。I-Match算法正是基于“在文档集中频繁出现的词并不会增加文档的语义信息”[13]的推断,去掉IDF值较小的词,从而获得了更好的文档表示。经过过滤的关键词按降序排列构成文档的“指纹”(fingerprint),指纹相同的文档被视为近似文档。最坏情况下(所有文档都是近似文档),I-Match算法的时间复杂度为O(nlogn)。

    2  基于特征向量的去重算法设计

    本文提出的基于特征向量的大规模中文网页去重算法,采用类似I-Match的关键词向量提取方法,但同时采用关键词的位置和权重信息构建特征向量来进行文档表示。不计算特征向量的hash值而是利用分类信息和检索系统来进行文档相似度计算和排重。具体设计方案如下:

    2.1  网页的文本提取

    网页中包含的广告信息、链接到其他网页的导航信息等,都会对该网页内容检索产生干扰。因此,在对网页的内容建立索引之前,我们需要对其中的有效正文信息进行了提取。采用的是我们另一项课题的研究成果[15]:

    1)根据网页的视觉信息将文章分块,并人工标注各个内容块是否为有效信息块。

    2)提取内容块的空间位置、视觉特征、语言信息及结构特征。

    3)提取文章标题,使用潜语义分析方法计算内容块与文章标题的潜在语义相关度。

    4)将以上信息构成内容块的特征向量。

    5)使用人工标注的内容块做六折交叉法,训练SVM(Support Vector Machine)分类器。

    6)使用训练好的SVM分类器判断新的内容块是否为有效信息块;提取有效信息块中的文本作为有效的正文信息。

    2.2  文本的表示

    迄今为止,文本的表示主要还是采用向量空间模型(VSM)。在该模型中,文档空间被看作是由一组正交向量张成的向量空间。若该空间的维数为n,则每个文档d可被表示为一个特征向量Vd=(ω1,ω2,…,ω1,…,ωn),其中ωi表示特征向量中第i个特征项的权重。

    特征项的选取即文本特征的提取过程。目前常用的特征选择策略有:文档频数(Document Frequency)、信息增益(Information Gain)和互信息(Mutual In formation)等特征选择方法。

    从中文信息处理角度来看,比较好的方式是利用意义较大的多字词来表示文档的内容,将文本分词后,将这些词的权重作为向量的分量来表示文本。但由于中文分词的词典规模一般在5万到25万词条之间[16]。也就是说中文的特征空间维数比英文高很多。在相同规模训练语料条件下,更高的维数必然导致更多的低频词出现。在这样的情况下使用IG和MI进行特征抽取,由于它们对低频词的倚重,必定将会有更多的低频词作为特征使用。从而导致了特征向量抽取的不准确。文献[17]的试验结果表明在中文特征向量问题上它们的表现远远不及TFIDF。

    因此,我们在系统中采用了一种使用比较普遍的TF-IDF公式来计算各个分量的权重!

    2.3  索引构建

    为了对特征向量进行快速访问,必须对特征项建立索引机制。倒排索引具有实现相对简单、查询速度快、容易支持同义词查询等优点。本文对特征项建立倒排索引文件。在我们的系统中有文章类别信息的支持,可以针对不同类别建立特征项索引,以提高检索效率。

    2.4  特征向量检索

    由于网页噪声的影响,重复网页的文本特征向量有时不完全相同,精确匹配会导致匹配失败。但由于特征向量是最能代表一篇文章的一组词,因此只用检索排在前边的n维特征向量并计算其相似度,即可基本确定两篇文章是否是近似文档。在得出匹配检索后,采用余弦公式(3)进行相似度计算。

    若sim(d1,d2)>阈值可以推断d1,d2是近似网页。

    3  实验结果及对比分析

    4  结论

     

    转自:http://www.cnindex.fudan.edu.cn/zgsy/2009n1/caoyujuan.htm













    本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6420488.html,如需转载请自行联系原作者

    展开全文
  • 《利用条件随机场实现中文病历文本中时间关系的自动提取》——阅读笔记摘要提出一种基于CRF的时间关系提取算法。以经过医学问题和时间信息语义标注的病历为训练内容,时间关系结果标注采用以医学问题为中心的模式。...

    摘要

    提出一种基于CRF的时间关系提取算法。以经过医学问题和时间信息语义标注的病历为训练内容,时间关系结果标注采用以医学问题为中心的模式。以63份实际病历作为实验文本。

    引言

    时间关系非常重要,如,哥伦比亚大学Zhou等开发的TimeText系统。中文面向医学临床文本,服务于医疗信息化的研究仍处空白。

    1 条件随机场

    CRF 避免了隐马尔可夫模型(hidden Markov model,HMM)的独立性假设,解决了最大熵模型(MaximumEntropy,ME)所带来的标记偏见问题,不像ME 在每一节点都要进行归一化,而是对所有特征进行全局归一化,可以求得全局的最优值,因此在自然语言处理领域的众多序列化标注任务中得到广泛应用。
    1. Zhao Hai,Huang Changning,Li Mu. An improved Chinese word segmentation system with conditional random field[A]. In: Dale R,eds. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing [C ]. Sydney: 2006 Association for Computational Linguistics,2006. 162 - 165.
    2. Peng Fuchun,McCallum A. Information extraction from research papers using conditional random fields[J]. Information Processing & Management,2006,42(4): 963 - 979.

    2 中文病历文本中的时间关系提取

    定义医学问题时间属性标签。
    处理流程:首先利用各种医学语言处理技术实现对于病历文本中医学问题和时间信息的自动语义标注,然后以医学问题为中心的模式对其进行手工时间关系标注,形成CRF训练预料,最后根据训练预料中时间与问题之间的规律,设计CRF学习模板,使用学习模板通过训练获得CRF模型,基于生成的CRF模型可以实现对时间关系的自动提取。

    2.1 语义标注

    对于医学问题的予以标注依赖于简历的一个具有语义注释的医学术语库(包含医学问题和描述问题变化的词语),采用反向最大匹配法来实现。采用正则表达式匹配~

    2.2 语料准备

    采用crf++。
    手工按照表1所示类型为训练数据标注正确的时间关系,最终形成的训练语料第一列数据是原始文本分解后的token,第二列是相应的予以标注,第三列是用于crf++学习的时间关系标注正确结果。总共63个病历文本,319个病历语句。

    2.3 模板准备

    基于对样本标注模式的窗口跨度等的统计,一维原子模板选取距当前标记距离为4的上下文标记,多维复合模板为原子模板的组合。高维特征能把握更多的长距离依赖关系,但也需要更大的训练开销,并带来更严重的数据稀疏问题,本文最高维设定为4维。

    3 实验以及结果的讨论

    有一定的应用潜力,准确率在80%以上。
    某个特定模板是否引起过拟合现象不仅在于训练预料的特点,亦和模板文件中个模板之间的关系相关。

    展开全文
  • 图1 本文方法示意图 一.基于Doc2Vec 的句子向量训练  ... Doc2Vec 模型能很好地结合上下文语境, 挖掘语义、语法和传统统计语言模型不能提取的诸多其他特征。本文引入该方法, 用以生成句子的向量模型。  Doc2Ve...
  • YOLO3论文中文

    2020-11-17 20:04:17
    解决方案2.1 边界框预测2.2 类预测2.3 多尺度预测2.4 特征提取器2.5 训练3.我们的做法4. 失败的尝试5.这一切意味着什么 YOLO3论文中文摘要 更新YOLO啦! 我们在设计上做了一些小的更改,使它变得更好。 我们训练...
  • synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义转换,关键字提取,概念提取,自动摘要,搜索引擎等。 表中的内容: 欢迎 pip install -U synonyms 兼容py2和py3,当前稳定版本 ...
  • 摘要 介绍了文章的大致思路和结构: 1.介绍,经典的目标检测算法,数据集 2.分析比对,各种目标检测算法,包括一阶段和两阶段的 3.介绍,传统和新的应用,以及一些目标检测的其他分支 4.讨论,用目前这些算法来构建...
  • HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用....默认模型训练自全世界最大规模的中文语料库,同时自带一些语料处理工具,帮助用户训练自己的模型。
  • fast 加速版的jieba、正则表达式教程、中文阅读理解数据集、基于BERT等最新语言模型的抽取式摘要提取、Python利用深度学习进行文本摘要的综合指南、知识图谱深度学习相关资料整理、维基大规模平行文本语料、Stanford...
  • 它采用在从Wikipedia建立的现有中文分类法上训练的分段线性投影模型和迭代学习算法来逐步更新模型参数. 提出了一种基于模式的关系选择方法, 以防止使用双准则优化的学习过程中的“语义漂移”. 论文研究的主要...
  • funNLP_fighting41love.tar.gz

    2019-10-20 15:05:11
    fast 加速版的jieba、正则表达式教程、中文阅读理解数据集、基于BERT等最新语言模型的抽取式摘要提取、Python利用深度学习进行文本摘要的综合指南、知识图谱深度学习相关资料整理、维基大规模平行文本语料、Stanford...
  • 本文简绍了SnowNLP的使用方法,这是一个处理中文文本内容的python类库,其主要功能包括分词、词性标注、情感分析、汉字转拼音、繁体转简体、关键词提取以及文本摘要等等。简介SnowNLP是一个可以方便的处理中文文本...
  • SAAN论文阅读笔记

    2021-02-04 17:04:22
    面部的先验知识被广泛用于恢复更真实的面部细节,这将增加网络的复杂性,并在训练和评估阶段引入额外的知识提取过程。为了解决上述问题,我们提出将人脸语义先验提取和人脸SR与注意力自适应模型相结合,并设计用于...
  • 中文:通过辅助任务上自训练的半监督人群计数 2. 作者以及研究单位 作者分别来自四川大学、阿德莱德大学、伍伦贡大学和大连理工大学。 3. 摘要 一两句话概述全文。 本文从特征学习的角度处理人群计数的半监督,只...
  • SnowNLP是一个可以方便的处理中文文本内容的python类库,是受到了TextBlob的启发而写的,和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。 Github地址:isnowfy/...
  • 提取文本摘要(TextRank算法) tf,idf Tokenization(分割成句子) 文本相似(BM25) 支持python3(感谢erning) Get It now $ pip install snownlp 关于训练 现在提供训练的包括分词,词性标注,情感分析,而且...
  • seq2seq模型是使用encoder-decoder结构解决序列转换问题,目前在序列转换任务中(如机器翻译、对话生成、文本摘要、图像描述)使用最广泛、效果最好的模型之一。 Feature 模型 kenlm:kenlm统计语言模型工具 rnn...
  • synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。 Table of Content: Install Usage Quick Get Start Valuation Benchmark ...
  • Macropodus是一个以Albert+BiLSTM+CRF网络架构为基础,用大规模中文语料训练的自然语言处理工具包。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现、文本相似度、计算器、数字转换、拼音...
  • PaddlePaddle Models PaddlePaddle 提供了丰富的计算单元,使得...视频摘要生成模型是对视频画面信息进行提取,并产生一段文字描述。视频查找模型则是基于一段文字描述,查找到视频中对应场景片段的起止时间点。这两...
  • synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。 Table of Content: Install Usage Quick Get Start Valuation Benchmark ...
  • 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题 1.文本分类(Text Classification) 文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。 下面是一些很好的初学者文本分类数据集...
  • 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题 1.文本分类(Text Classification) 文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。 下面是一些很好的初学者文本分类数据集...
  • awesome-python 是 vinta 发起维护的 Python 资源列表,内容包括:Web 框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。由「开源前哨...

空空如也

空空如也

1 2
收藏数 29
精华内容 11
关键字:

中文摘要提取训练