精华内容
参与话题
问答
  • chqiwang/convseg,基于CNN做中文分词,提供数据和代码。 对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word SegmentationIJCNLP2017. 2.词预测 Word Prediction Kyubyong/w...

     

    1.分词 Word Segmentation

    chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。

    对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017.

     

    2.词预测 Word Prediction

    Kyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。

     

    3. 文本蕴涵 Textual Entailment

    Steven-Hewitt/Entailment-with-Tensorflow,基于Tensorflow做文本蕴涵,提供数据和代码。

     

    4. 语音识别 Automatic Speech Recognition

    buriburisuri/speech-to-text-wavenet,基于DeepMind WaveNet和Tensorflow做句子级语音识别。

    5. 自动摘要 Automatic Summarisation

    PKULCWM/PKUSUMSUM,北大万小军老师团队的自动摘要方法汇总,包含了他们大量paper的实现,支持单文档摘要、多文档摘要、topic-focused多文档摘要。

     

    6. 文本纠错 Text Correct

    atpaino/deep-text-corrector,基于深度学习做文本纠错,提供数据和代码。

     

    7.字音转换 Grapheme to Phoneme

    cmusphinx/g2p-seq2seq,基于网红transformer做, 提供数据和代码。

     

    8. 复述检测 Paraphrase Detection 和 问答 Question Answering

    Paraphrase-Driven Learning for Open Question Answering, 基于复述驱动学习的开放域问答。

     

    9. 音汉互译 Pinyin-To-Chinese

    Kyubyong/neural_chinese_transliterator,基于CNN做音汉互译。

     

    10. 情感分析 Sentiment Analysis

    情感分析包括的内容太多了,目前没发现比较全的。推荐两个适合练手的吧:Deeply Moving: Deep Learning for Sentiment Analysishttp://sentic.net/about/

     

    11. 手语识别 Sign Language Recognition

    Home - SignAll, 该项目在手语识别做的非常成熟。

     

    12. 词性标注(POS)、 命名实体识别(NER)、 句法分析(parser)、 语义角色标注(SRL) 等。

    HIT-SCIR/ltp, 包括代码、模型、数据,还有详细的文档,而且效果还很好。

     

    13. 词干 Word Stemming

    snowballstem/snowball, 实现的词干效果还不错。

     

    14. 语言识别 Language Identification

    https://github.com/saffsd/langid.py,语言识别比较好的开源工具。

     

    15. 机器翻译 Machine Translation

    OpenNMT/OpenNMT-py, 基于PyTorch的神经机器翻译,很适合练手。

     

    16. 复述生成 Paraphrase Generation

    vsuthichai/paraphraser,基于Tensorflow的句子级复述生成,适合练手。

     

    17. 关系抽取 Relationship Extraction

    ankitp94/relationship-extraction,基于核方法的关系抽取。

     

    18. 句子边界消歧 Sentence Boundary Disambiguation

    https://github.com/Orekhov/SentenceBreaking,很有意思。

     

    19.事件抽取 Event Extraction

    liuhuanyong/ComplexEventExtraction, 中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。

     

    20. 词义消歧 Word Sense Disambiguation

    alvations/pywsd,代码不多,方法简单,适合练手。

     

    21. 命名实体消歧 Named Entity Disambiguation

    dice-group/AGDISTIS,实体消歧是很重要的,尤其对于实体融合(比如知识图谱中多源数据融合)、实体链接。

     

    22. 幽默检测 Humor Detection

    pln-fing-udelar/pghumor

     

    23. 讽刺检测 Sarcasm Detection

    AniSkywalker/SarcasmDetection,基于神经网络的讽刺检测。

     

    24. 实体链接 Entity Linking

    hasibi/EntityLinkingRetrieval-ELR, 实体链接用途非常广,非常适合练手。

     

    25. 指代消歧 Coreference Resolution

    huggingface/neuralcoref,基于神经网络的指代消歧。

     

    26. 关键词/短语抽取和社会标签推荐 Keyphrase Extraction and Social Tag Suggestion

    thunlp/THUTag, 用多种方法 实现了多种关键词/短语抽取和社会标签推荐。

    参考:https://zhuanlan.zhihu.com/p/51279338

    展开全文
  • 自然语言处理NLP)是数据科学中最有趣的子领域之一,越来越多的数据科学家希望能够开发出涉及非结构化文本数据的解决方案。尽管如此,许多应用数据科学家(均具有STEM和社会科学背景)依然缺乏NLP自然语言处理)...

    自然语言处理(NLP)是数据科学中最有趣的子领域之一,越来越多的数据科学家希望能够开发出涉及非结构化文本数据的解决方案。尽管如此,许多应用数据科学家(均具有STEM和社会科学背景)依然缺乏NLP(自然语言处理)经验。

    在这篇文章中,我将探讨一些基本的NLP概念,并展示如何使用日益流行的Python spaCy包来实现这些概念。这篇文章适合NLP初学者阅读,但前提是假设读者具备Python的知识。

    你是在说spaCy吗?

    spaCy是一个相对较新的包,“工业级的Python自然语言工具包”,由Matt Honnibal在Explosion AI.开发。它在设计时目标用户以应用数据科学家为主,这也意味着它不需要用户来决定使用哪个算法来处理常见任务,而且它非常地快—快得难以置信(它用Cython来实现)。如果你熟悉Python数据科学栈,spaCy就是NLP的numpy,它虽然理所当然地位于底层,但是却很直观,性能也相当地高。

    那么,它能做什么呢?

    spaCy为任何NLP项目中常用的任务提供一站式服务.包括:

    8481c8f592b7f349aa84a1de5c171db681516edf符号化(Tokenizatioin)
    8481c8f592b7f349aa84a1de5c171db681516edf词干提取(Lemmatization)
    8481c8f592b7f349aa84a1de5c171db681516edf词性标注(Part-of-speech tagging)
    8481c8f592b7f349aa84a1de5c171db681516edf实体识别(Entity recognition)
    8481c8f592b7f349aa84a1de5c171db681516edf依存句法分析(Dependency parsing)
    8481c8f592b7f349aa84a1de5c171db681516edf句子的识别(Sentence recognition)
    8481c8f592b7f349aa84a1de5c171db681516edf字-向量变换(Word-to-vector transformation)
    8481c8f592b7f349aa84a1de5c171db681516edf许多方便的清除文本和标准化文本的方法(cleaning and normalizing text)

    我会对这些功能做一个高层次的概述,并说明如何利用spaCy访问它们。

    那我们就开始吧。

    首先,我们加载spaCy的管线,按照约定,它存储在一个名为nlp的变量中。需要花几秒钟时间声明该变量,因为spaCy预先将模型和数据加载到前端,以节省时间。实际上,这样做可以提前完成一些繁重的工作,使得nlp解析数据时开销不至于过大。 请注意,在这里,我们使用的语言模型是英语,同时也有一个功能齐全的德语模型,在多种语言中均可实现标记化(将在下面讨论)。

    我们在示例文本中调用NLP来创建Doc对象。Doc 对象是文本本身NLP任务容器,将文本切分成文字(Span 对象)和元素(Token 对象),这些对象实际上不包含数据。值得注意的是Token 和 Span对象实际上没有数据。相反,它们包含Doc对象中的数据的指针,并且被惰性求值(即根据请求)。绝大多数spaCy的核心功能是通过对Doc (n=33), Span (n=29),和 Token (n=78)对象的方法来实现的。

     

    In[1]:import spacy
    
    ...: nlp = spacy.load("en")
    
    ...: doc = nlp("The big grey dog ate all of the chocolate, but fortunately he wasn't sick!")

     

    分词(tokenization)

    分词是许多自然语言处理任务中的一个基本步骤。分词就是将一段文本拆分为单词、符号、标点符号、空格和其他元素的过程,从而创建token。这样做的一个简单方法是在空格上拆分字符串:

    In[2]:doc.text.split()
    
    ...: Out[2]: ['The', 'big', 'grey', 'dog', 'ate', 'all', 'of', 'the', 'chocolate,', 'but', 'fortunately', 'he', "wasn't", 'sick!']

    从表面上,直接以空格进行分词效果还不错。但是请注意, 它忽略了标点符号,且没有将动词和副词分开("was", "n't")。换句话说,它太天真了,它无法识别出帮助我们(和机器)理解其结构和含义的文本元素。让我们来看看spaCy如何处理这个问题:

     

    In[3]:[token.orth_ for token in doc]
    
    ...:
    
    Out[3]: ['The', 'big', 'grey', 'dog', 'ate', 'all', 'of', 'the', 'chocolate', ',', 'but', 'fortunately', 'he', 'was', "n't", ' ', 'sick', '!']

     

    这里,我们访问的每个token的.orth_方法,它返回一个代表token的字符串,而不是一个SpaCytoken对象。这可能并不总是可取的,但值得注意。SpaCy能够识别标点符号,并能够将这些标点符号与单词的token分开。许多SpaCy的token方法为待处理的文字同时提供了字符串和整数的返回值:带有下划线后缀的方法返回字符串而没有下划线后缀的方法返回的是整数。例如:

     

    In[4]:[(token, token.orth_, token.orth) for token in doc]
    
    ...:
    
    Out[4]:[(The, 'The', 517), (big, 'big', 742), (grey, 'grey', 4623), (dog, 'dog', 1175), (ate, 'ate', 3469), (all, 'all', 516), (of, 'of', 471), (the, 'the', 466), (chocolate, 'chocolate', 3593), (,, ',', 416), (but, 'but', 494), (fortunately, 'fortunately', 15520), (he, 'he', 514), (was, 'was', 491), (n't, "n't", 479), ( , ' ', 483), (sick, 'sick', 1698), (!, '!', 495)]
    
    In[5]: [token.orth_ for token in doc if not token.is_punct | token.is_space]
    
    ...:
    
    Out[5]: ['The', 'big', 'grey', 'dog', 'ate', 'all', 'of', 'the', 'chocolate', 'but', 'fortunately', 'he', 'was', "n't", 'sick']

     

    很酷,对吧?

    词干提取

    和分词相关的任务是词干提取。词干提取是将一个单词还原成它的基本形式--母词的过程。不同用法的单词往往具有相同意义的词根。例如,practice(练习), practiced(熟练的),和 practising(实习)这三个单词实质上指的是同一件事情。通常需要将相似意义的单词进行标准化,标准化到其基本的形式。使用SpaCy,我们利用标记的.lemma_ 方法访问到每个单词的基本形式。

    In[6]:practice = "practice practiced practicing"
    
    ...: nlp_practice = nlp(practice)
    
    ...: [word.lemma_ for word in nlp_practice]
    
    ...:
    
    Out[6]: ['practice', 'practice', 'practice']

    为什么这个会有用?一个即时用例便是机器学习,特别是文本分类。例如:在创建“单词袋”之前需对文本进行词干提取,避免了单词的重复,因此,该模型可以更清晰地描述跨多个文档的单词使用模式。

    词性标注(POS Tagging)

    词性标注是将语法属性(如名词、动词、副词、形容词等)赋值给词的过程。共享相同词性标记的单词往往遵循类似的句法结构,在基于规则的处理过程中非常有用。

    例如,在给定的事件描述中,我们可能希望确定谁拥有什么。通过利用所有格,我们可以做到这一点(提供文本的语法)。SpaCy采用流行的Penn Treebank POS标记(参见这里)。利用SpaCy,可以分别使用.pos_ 和 .tag_方法访问粗粒度POS标记和细粒度POS标记。在这里,我访问细粒度的POS标记:

    In[7]:doc2 = nlp("Conor's dog's toy was hidden under the man's sofa in the woman's house")
    
    ...: pos_tags = [(i, i.tag_) fori indoc2]
    
    ...: pos_tags
    
    ...:
    
    Out[7]:
    
    [(Conor,'NNP'),
    
    ('s, 'POS'),
    
    (dog,'NN'),
    
    ('s, 'POS'),
    
    (toy,'NN'),
    
    (was,'VBD'),
    
    (hidden,'VBN'),
    
    (under,'IN'),
    
    (the,'DT'),
    
    (man,'NN'),
    
    ('s, 'POS'),
    
    (sofa,'NN'),
    
    (in,'IN'),
    
    (the,'DT'),
    
    (woman,'NN'),
    
    ('s, 'POS'),
    
    (house,'NN')]

    我们可以看到,'s 的标签被标记为 POS.我们可以利用这个标记提取所有者和他们拥有的东西:

     

    In[8]:owners_possessions = []
    
    ...: for i in pos_tags: ...: if i[1] == "POS":
    
    ...: owner = i[0].nbor(-1)
    
    ...: possession = i[0].nbor(1)
    
    ...: owners_possessions.append((owner, possession))
    
    ...:
    
    ...: owners_possessions
    
    ...:
    
    Out[8]: [(Conor, dog), (dog, toy), (man, sofa), (woman, house)]

     

    这将返回所有者拥有元组的列表。如果你想在这件事上表现成为超级Python能手的话,你可以把它写成一个完整的列表(我认为这是最好的!):

     

    In[9]: [(i[0].nbor(-1), i[0].nbor(+1)) for i in pos_tags if i[1] == "POS"]
    
    ...: Out[9]: [(Conor, dog), (dog, toy), (man, sofa), (woman, house)]

     

    在这里,我们使用的是每个标记的.nbor 方法,它返回一个和这个标记相邻的标记。

    实体识别

    实体识别是将文本中的指定实体分类为预先定义的类别的过程,如个人、地点、组织、日期等。spaCy使用统计模型对各种模型进行分类,包括个人、事件、艺术作品和国籍/宗教(参见完整列表文件))

    例如,让我们从贝拉克·奥巴马的维基百科条目中选出前两句话。我们将解析此文本,然后使用Doc 对象的 .ents方法访问标识的实体。通过调用Doc 的这个方法,我们可以访问其他的标记方法 ,特别是 .label_ 和 .label两个方法:

     

    In[10]:wiki_obama = """Barack Obama is an American politician who served as
    
    ...: the 44th President of the United States from 2009 to 2017.He is the first
    
    ...: African American to have served as president,
    
    ...: as well as the first born outside the contiguous United States."""
    
    …:
    
    …:nlp_obama = NLP(wiki_obama)
    
    …:[(i, i.label_, i.label) for i in nlp_obama.ents]
    
    ...:
    
    
    Out[10]: [(Barack Obama, 'PERSON', 346), (American, 'NORP', 347),
     (the United States, 'GPE', 350), (2009 to 2017, 'DATE', 356), 
    (first, 'ORDINAL', 361), (African, 'NORP', 347), (American, 'NORP', 347),
     (first, 'ORDINAL', 361), (United States, 'GPE', 350)]
    

     

    您可以看到在本例中,模型所识别的实体以及它们的精确程度。PERSON 是不言自明的;NORP是国籍或宗教团体;GGPE标识位置(城市、国家等等);DATE 标识特定的日期或日期范围, ORDINAL标识一个表示某种类型的顺序的单词或数字。

    在我们讨论Doc方法的主题时,值得一提的是spaCy的句子标识符。NLP任务希望将文档拆分成句子的情况并不少见。利用SpaCy访问Doc's.sents 方法并不难做到:

    In[11]:for ix, sent in enumerate(nlp_obama.sents, 1):
    
    ...: print("Sentence number {}: {}".format(ix, sent))
    
    ...: Sentence number 1: Barack Obama is an American politician who served as the 44th President of the United States from 2009 to 2017.Sentence number 2:
     He is the first African American to have served as president, as well as the first born outside the contiguous United States.

    目前就是这样。在以后的文章中,我将展示如何在复杂的数据挖掘和ML的任务中使用spaCy。

    TrueSight是一个AIOps平台,由机器学习和分析提供动力支持,它解决了多个云的复杂性,并且提高了数字转化的速度,从而提升了IT运­作的效率。

    >>>>阅读全文

    展开全文
  • 一、强制抽取用定义词典的词 在做NER时,jieba/ltp 有时候就算是添加的 用户自定义实体词典,设置了词频,有时候这些需要抽取的实体还是没有分出, 为此,需要手动写一个实体词典匹配的算法 ...

    一、强制抽取用定义词典的词

           在做NER时,jieba/ltp 有时候就算是添加的 用户自定义实体词典,设置了词频,有时候这些需要抽取的实体还是没有分出,

    为此,需要手动写一个实体词典匹配的算法

            强制分词

    二、

    展开全文
  • nlp学习code c代码

    2019-02-14 17:35:45
    语言分析 nlp学习ppt及代码
  • 代码中涉及的具体的类或函数在对应的其他分支博客下谅解~ {第一次用markdown写代码块,排版不是很好,会越来越好~} # -*- coding: utf-8 -*- print("开始..............") import ...

    数据集: https://pan.baidu.com/s/13IMDPMz0rf8kM1JAea53uQ
    密码: y6m4
    数据集炒鸡炒鸡大TQT~~~
    代码中涉及的具体的类或函数在对应的其他分支博客下谅解~
    {第一次用markdown写代码块,排版不是很好,会越来越好~}

    # -*- coding: utf-8 -*-
    print("开始..............")
    
    import pandas as pd
    from sklearn.linear_model import LogisticRegression
    from sklearn.feature_extraction.text import CountVectorizer
    
    df_train = pd.read_csv('./train_set.csv')
    df_test = pd.read_csv('./test_set.csv')
    df_train.drop(columns=['article','id'],inplace=True)
    #pandas的drop函数:删除表中的某一行或者某一列,当inplace手动设为True时(默认为false),改变原有的df中的数据,原数据直接就被替换。
    
    df_test.drop(columns=['article'],inplace=True)
    
    vectorizer = CountVectorizer(ngram_range=(1,2),min_df=3,max_df=0.9,max_features=100000)
    
    #文本特征提取方法:CountVectorizer,它只考虑每种词汇在该训练文本中出现的频。
    #CountVectorizer算法是将文本向量转换成稀疏表示数值向量(字符频率向量)。
    #该数值向量可以传递给其他算法,譬如LDA 。在fitting过程中,CountVectorizer将会把频率高的单词排在前面。可选参数minDF表示文本中必须出现的次数(具体分析见另一篇博客啦~)
    
    vectorizer.fit(df_train['word_seg'])
    # 先拟合训练集'word_seg'列的数据
    
    x_train = vectorizer.transform(df_train['word_seg'])
    # 再标准化训练集'word_seg'列数据,tranform()的作用是通过找中心和缩放等实现标准化
    
    x_test = vectorizer.transform(df_test['word_seg'])
    # 标准化测试集'word_seg'列数据
    
    y_train = df_train['class']-1
    #将训练集y 标签为'class'列的数据全部减一
    
    lg = LogisticRegression(C=4,dual=True)
    # 使用LogisticRegression每次指定一个正则化系数C。
    
    lg.fit(x_train,y_train)
    #Fit the model according to the given training data
    
    y_test = lg.predict(x_test)
    #根据输入的测试集x输出预测的y值
    
    df_test['class'] = y_test.tolist()
    #将预测结果转化为list赋值给测试集中'class'一列 
    
    df_test['class'] = df_test['class']+1
    #该列每一个值加一
    
    df_result = df_test.loc[:,['id','class']]
    #选取'id','class'两列作为结果集
    
    df_result.to_csv('./result.csv',index=False)
    #保存结果
    print("完成...............")

    ———-我是分隔线
    如果碰到如下报错这里写图片描述
    可尝试这么改,数据集一次读取太大了,限制下一次的读取最大值
    这里写图片描述

    展开全文
  • 一.imdb数据集下载和探索 我们将使用 IMDB 数据集,其中包含来自互联网电影数据库的 50000 条影评文本。我们将这些影评拆分为训练集(25000 条影评)和测试集(25000 条影评)。训练集和测试集之间达成了平衡,意味...
  • 推荐github上的一个NLP代码教程:nlp-tutorial,教程中包含常见的NLP模型代码实现(基于TensorFlow和Pytorch),而且教程中的大多数NLP...
  • 刚入门自然语言处理的小伙伴,或者说已经接触了一段时间,但是一直不能够对自然语言处理项目的整个流程有一个大方向的把握,不知道自己目前所研究的点,是处于NLP项目的流程的哪部分,可以通过此文章来了解一下。
  • 本文作者为自然语言处理NLP初学者整理了一份庞大的自然语言处理项目领域的概览,包括了很多人工智能应用程序。选取的参考文献与资料都侧重于最新的深度学习研究成果。这些自然语言处理项目资源能为想要深入钻研一个...
  • 京东NLP企业级项目实战训练营分享下载 京东NLP企业级项目实战训练营分享下载 训练营基于先进的AI技术和强大项目实战能力,专注于培养行业TOP10%NLP工程师,已收录:Seq2Seq、Distillation、Transformer、XLNet、...
  • 自然语言处理NLP)简介

    千次阅读 2020-05-30 00:00:29
    简单地说,自然语言处理就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本...
  • ChineseNLPcorpus An collection of Chinese nlp corpus including basic Chinese syntactic wordset, ... 中文自然语言处理的语料集合,包括语义词、领域共时、历时语料库、评测语料库等。本项目简单谈谈自己对语...
  • NLP项目

    2019-06-12 21:19:00
    GitHub NLP项目:自然语言处理项目的相关干货整理 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。本文作者为自然语言处理NLP初学者整理了一份庞大的自然...
  • NLP汉语自然语言处理原理与实践》郑捷代码,找了一会,方便大家: http://www.threedweb.cn/data/attachment/bigupload/NLPBook.zip 另,推荐宗成庆老师的《统计自然语言处理》,写的很好,引用文献很多,作者...
  • 自然语言处理(NLP)入门

    万次阅读 多人点赞 2017-11-21 20:32:26
    本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。什么是NLP?简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序...
  • NLP自然语言处理步骤1.数据收集(建立语料库)1.1.利用已有数据1.2.爬取数据2.数据处理2.1.数据读取(语料)2.2.数据清洗(去掉标点符号(空格、句号、逗号、问好、引号等)等)2.3.分词(token)文章样本集中的句子...
  • 中文自然语言处理入门实战

    万次阅读 多人点赞 2018-07-03 02:45:10
    本达人课,作为中文自然语言处理边学边实战的入门级教程,以小数据量的“简易版”实例,通过实战带大家快速掌握 NLP 在中文方面开发的基本能力。 本课程共包含 18 节。各小节之间并没有紧密耦合,但是整个内容还是...
  • 5个NLP代码

    2020-09-25 14:34:37
    spaCy 是Python中比较出名,专门用于自然语言处理的库。它有助于实现最先进的效率和敏捷性,并拥有活跃的开源组织积极贡献代码。 加分项: 与所有主要的深度学习框架很好地结合,并预装了一些出色且有用的语言模型 ...
  • 博主github:https://github.com/MichaelBeechan 博主CSDN:https://blog.csdn.net/u011344545 ============================================ 概念篇:https://blog.csdn.net/u011344545/article/details/89525801 ...
  • 1、自然语言处理圣经---《自然语言处理综论》2、视频课程《深度学习与自然语言处理-2018》3、Natural Language Processing (NLP)4、吴恩达经典课程 - Machine Learning —Coursera5、斯坦福 Natural Language ...
  • 自然语言处理真实项目实战

    千次阅读 2018-11-21 10:52:59
    本文根据实际项目撰写,由于项目保密要求,源代码将进行一定程度的删减。本文撰写的目的是进行公司培训,请勿以任何形式进行转载。由于是日语项目,用到的分词软件等,在中文任务中需要...自然语言处理真实项目实战...
  • 自然语言处理NLP)知识结构总结

    万次阅读 多人点赞 2018-03-17 18:04:35
    自然语言处理知识太庞大了,网上也都是一些...主要参考书为宗成庆老师的《统计自然语言处理》,虽然很多内容写的不清楚,但好像中文NLP书籍就这一本全一些,如果想看好的英文资料,可以到我的GitHub上下载: http://...
  • [NLP自然语言处理]谷歌BERT模型深度解析

    万次阅读 多人点赞 2018-10-15 17:49:18
    我的机器学习教程「美团」算法工程师带你入门机器学习 已经开始更新了,欢迎大家订阅~ 任何关于算法、编程、AI行业知识或博客内容的问题,可以随时扫码关注公众号「图灵的猫」,加入”...BERT模型代码已经发布,...
  • Python NLP完整项目实战教程(1)

    千次阅读 2018-12-03 16:24:21
    打算写一个系列的关于自然语言处理技术的文章《Python NLP完整项目实战》,本文算是系列文章的起始篇,为了能够有效集合实际应用场景,避免为了学习而学习,考虑结合一个具体的项目案例展开:汽车投诉问题的自动化...
  • 自己开发的一个自然语言处理java库,后期可能会加入机器学习的一些模型,不限于nlp项目地址:https://github.com/colin0000007/CONLP 欢迎关注 CONLP是瞎取的名字,暂定。 1.介绍 一个通用的隐马模型的java...
  • 自然语言处理NLP)学习路线总结

    千次阅读 多人点赞 2019-03-20 21:01:53
    目录 自然语言处理概述 ...自然语言处理入门基础 ...自然语言处理的主要技术范畴 ...自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间...
  • 自然语言处理NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之...
  • NLP(Natural Language Processing),自然语言处理,又称NLU(Natural Language Understanding)自然语言理解,是语言信息处理的分支,也是人工智能的核心课题,简单来说就是让计算机理解自然语言。
  • Python 自然语言处理

    2017-09-16 10:31:06
    《Python自然语言处理》是自然语言处理领域的一本实用入门指南,旨在帮助读者学习如何编写程序来分析书面语言。《Python自然语言处理》基于Python编程语言以及一个名为NLTK的自然语言工具包的开源库,但并不要求读者...
  • 最近在做一些语音识别和语义理解方面的项目,在VS平台上配置还是费了点劲。记录下来一些重要的步骤,和大家分享。 1.配置curl,json和openssl 这个部分我按照网上一些博客的指导,在win32平台下进行了编译,下载...

空空如也

1 2 3 4 5 ... 20
收藏数 256,295
精华内容 102,518
关键字:

nlp代码