nltk 订阅
Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。 展开全文
Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
信息
外文名
Natural Language Toolkit
包含内容
Python模块,数据集和教程
适用领域
NLP领域
中文名
自然语言处理工具包
功    能
NLP的研究和开发
英文简称
NLTK
mount定义
NLTK是一个开源的项目,包含:Python模块,数据集和教程,用于NLP的研究和开发 [1]  。NLTK由Steven Bird和Edward Loper在宾夕法尼亚大学计算机和信息科学系开发。NLTK包括图形演示和示例数据。其提供的教程解释了工具包支持的语言处理任务背后的基本概念。
收起全文
精华内容
参与话题
问答
  • NLTK

    2019-03-26 22:09:39
    |similar() | 搜索文章中与目标具有相同上下文的词,这里nltk.text.Text类对象有该属性,list对象没有 | |common_contexts()–|-搜索list中词在文章中出现的共同的两个或两个以上的上下文,这里nltk.text.Text类...

    from future import division放在Python文件导包的第一行

    from future import division
    from nltk.book import *

    **similar() 搜索文章中与目标具有相同上下文的词,这里nltk.text.Text类对象有该属性,list对象没有
    common_contexts() 搜索list中词在文章中出现的共同的两个或两个以上的上下文,这里nltk.text.Text类对象有该属性,list对象没有
    **
    zip
    在这里插入图片描述
    urlopen
    在这里插入图片描述
    python3:列表推导式,生成器表达式,字典推导式
    在这里插入图片描述
    在这里插入图片描述
    pprint
    print()和pprint()都是python的打印模块,功能基本一样,唯一的区别就是pprint()模块打印出来的数据结构更加完整,每行为一个数据结构,更加方便阅读打印输出结果。特别是对于特别长的数据打印,print()输出结果都在一行,不方便查看,而pprint()采用分行打印输出,所以对于数据结构比较复杂、数据长度较长的数据,适合采用pprint()打印方式

    全局变量
    global val #在使用前初次声明
    val = 10 #给全局变量赋值

    def xy():
        global val   #再次声明,表示在这里使用的是全局变量,而不是局部变量
        print('现在是全局变量val,值为',val)
     
    def zoo():
        val = 5
        print('现在是局部变量val,值为',val)
     
    if __name__ == "__main__":
     
        xy()
    zoo()
    

    sorted()可用于任意可迭代对象,sort()一般作用于列表
    list.sort(),可以直接改变列表的内容:
    sorted(),它的特点是不改变原列表的内容,而是根据一个可迭代对象建立一个新的列表

    >>> list1 = [9,8,7,6,5]
    >>> list1.sort()
    >>> list1
    [5, 6, 7, 8, 9]
    
    >>> list2 = [4,3,2,1]
    >>> list3 = sorted(list2)
    >>> list2
    [4, 3, 2, 1]
    >>> list3
    [1, 2, 3, 4]
    

    map
    在这里插入图片描述
    在python中一对单引号,一对双引号,三个单双引号的区别和用法

    >>> type("""abcde""")
    <class 'str'>
    >>> type('''abcd''')
    <class 'str'>
    

    三对单,双引号是有数据类型的
    三对单,双引号的用法是定义的时候可以定义多行字符串

    >>> a = """
    ... a
    ... b
    ... c
    ... d
    ... """
    >>> print (a)
    
    a
    b
    c
    d
    

    使用单引号,那么就要使用转译符

     >>> str = 'Let\'s me think'
    >>> str
    "Let's me think"
    

    字符串里面含有双引号

    >>> str = "She said, \"Hurry up\"."
    >>> str
    'She said, "Hurry up".'
    

    非要写成多行,就得在每一行后面加一个\表示连字符 或者用加上括号,() {} []中不需要特别加换行符:

    str1 = "List of name:\
            Hua Li\
            Chao Deng"
    print(str1)
    str1 = {'List of name',
        'Hua Li',
        'Chao Deng'}
    print(str1)
    
    str1 = """List of name:
    Hua Li
    Chao Deng
     """
    print(str1)
    
    展开全文
  • nltk

    2018-12-13 14:54:31
    import nltk nltk.download() 分词 英文分词:nltk.word_tokenize() # 按照单词进行分词 中文分词:jieba.cut() 词性处理 stemming词干提取: 保留最长词根 nltk库中有多种函数实现: from nltk.stem.porter ...

    安装语料库

    import nltk
    nltk.download()
    

    在这里插入图片描述

    分词

    • 英文分词:nltk.word_tokenize() # 按照单词进行分词
    • 中文分词:jieba.cut()

    词性处理

    • stemming词干提取: 保留最长词根

    nltk库中有多种函数实现:

    from nltk.stem.porter import PorterStemmer
    porter_stemmer = PorterStemmer()
    porter_stemmer.stem(‘maximum’)
    # output: u’maximum’
    
    from nltk.stem.lancaster import LancasterStemmer
    lancaster_stemmer = LancasterStemmer()
    lancaster_stemmer.stem(‘maximum’)
    #output: ‘maxim’
    
    from nltk.stem import SnowballStemmer
    snowball_stemmer = SnowballStemmer(“english”)
    snowball_stemmer.stem(‘maximum’)
    u’maximum’
    
    • lemmatization词形归一:将词的各种变形都归为一个形式(wordnet)
    >>> from nltk.stem import WordNetLemmatizer
    >>> wordnet_lemmatizer = WordNetLemmatizer()
    >>> wordnet_lemmatizer.lemmatize(‘dogs’)
    u’dog’
    >>> wordnet_lemmatizer.lemmatize(‘churches’)
    u’church’
    >>> wordnet_lemmatizer.lemmatize(‘aardwolves’)
    u’aardwolf’
    >>> wordnet_lemmatizer.lemmatize(‘abaci’)
    u’abacus’
    >>> wordnet_lemmatizer.lemmatize(‘hardrock’)
    ‘hardrock’
    

    去除stopwords

    from nltk.corpus import stopwords
    # 先token⼀把,得到⼀个word_list
    # ...
    # 然后filter⼀把
    filtered_words =
    [word for word in word_list if word not in stopwords.words('english')]
    
    展开全文
  • NLTk

    2019-10-03 07:07:22
    1、python的nltk中文使用和学习资料汇总帮你入门提高 http://blog.csdn.net/huyoo/article/details/12188573 转载于:https://www.cnblogs.com/fclbky/p/4836218.html

     

    1、python的nltk中文使用和学习资料汇总帮你入门提高

    http://blog.csdn.net/huyoo/article/details/12188573

    转载于:https://www.cnblogs.com/fclbky/p/4836218.html

    展开全文
  • Natural Language Toolkit (NLTK) NLTK -- the Natural Language Toolkit -- is a suite of open source Python modules, data sets, and tutorials supporting research and development in Natural Language ...
  • NLTK(1.2)NLTK简介

    2019-10-23 21:48:11
    文章目录NLTK库简介NLTK库重要模块及功能安装NLTKNLTK库简介 Natural Language Toolkit(简称NLTK库),自然语言处理工具包,是一个当下流行的,用于自然语言处理的Python 库。 NLTK 包含大量的软件、数据和文档...

    NLTK库简介

    Natural Language Toolkit(简称NLTK库),自然语言处理工具包,是一个当下流行的,用于自然语言处理的Python 库。
    NLTK 包含大量的软件、数据和文档,所有这些都可以从http://nltk.org/ 免费下载。
    NLTK 创建于2001 年,最初是宾州大学计算机与信息科学系计算语言学课程的一部分。从那以后,在数十名贡献者的帮助下不断发展壮大。如今,它已被几十所大学的课程所采纳,并作为许多研究项目的基础。

    NLTK库重要模块及功能

    在这里插入图片描述

    安装NLTK库

    pip install nltk
    

    通过运行以下代码来安装NLTK扩展包

    import nltk
     nltk.download()
    

    在这里插入图片描述

    NLTK中的语料库

    在自然语言处理的实际项目中,通常要使用大量的语言数据或者语料库。
    一个文本语料库是一大段文本。
    nltk.corpus包提供了许多语料库。

    英文文本语料库

    • gutenberg 一个有若干万部的小说语料库,多是古典作品
    • webtext 网络和聊天文本
    • nps_chat 有上万条聊天消息语料库,即时聊天消息为主
    • brown 第一个百万词级的英语语料库,按文体进行分类
    • reuters 路透社语料库,上万篇新闻方档,约有1百万字,分90个主题,并分为训练集和测试集两组
    • inaugural 演讲语料库,几十个文本,都是总统演说

    标注文本语料库

    许多文本语料库都包含语言学标注,有词性标注、命名实体、句法结构、语义角色等
    在这里插入图片描述

    其他语言的语料库

    udhr,是超过300种语言的世界人权宣言

    更多语料库,可以用==nltk.download()==在下载管理器中查看corpus。

    文本语料库常见结构

    在这里插入图片描述

    • 最简单的一种语料库是一些孤立的没有什么特别的组织的文本集合;
    • 一些语料库按如文体(布朗语料库)等分类组织结构;
    • 一些分类会重叠,如主题类别(路透社语料库);
    • 另外一些语料库可以表示随时间变化语言用法的改变(就职演说语料库)。

    NLTK 中定义的基本语料库函数

    fileids()	#语料库中的文件
    fileids([categories])	#这些分类对应的语料库中的文件
    categories()	#语料库中的分类
    categories([fileids])	#这些文件对应的语料库中的分类
    raw()	#语料库的原始内容
    raw(fileids=[f1,f2,f3])	#指定文件的原始内容
    raw(categories=[c1,c2])	#指定分类的原始内容
    words()	#整个语料库中的词汇
    words(fileids=[f1,f2,f3])	#指定文件中的词汇
    words(categories=[c1,c2])	#指定分类中的词汇
    sents()	#整个语料库中的句子
    sents(fileids=[f1,f2,f3])	#指定文件中的句子
    sents(categories=[c1,c2])	#指定分类中的句子
    abspath(fileid)	#指定文件在磁盘上的位置
    encoding(fileid)	#文件的编码(如果知道的话)
    open(fileid)	#打开指定语料库文件的文件流
    root	#本地安装的语料库根目录的路径
    readme()	#语料库的README 文件的内容
    

    举个例子

    import nltk
    from nltk.corpus import reuters
     reuters.fileids()#查看文件
    
    reuters.categories()#查看分类
    
    reuters.fileids(['barley', 'corn'])#查看属于两个分类的文件
    

    加载自己的语料库

    如果你有自己收集的文本文件,可以在NLTK 中的PlaintextCorpusReader帮助下加载它们。
    变量corpus_root [1]的值设置为文件储存目录。
    第二个参数file_pattern[2]可以是一个如[‘a.txt’, ‘test/b.txt’]这样的fileids列表,或者一个正则表达式
    如’[abc]/.*.txt’。

    from nltk.corpus import BracketParseCorpusReader
    corpus_root = r"C:\corpora\penntreebank\parsed\mrg\wsj"# [1]
    file_pattern ='.*'
     ptb = BracketParseCorpusReader(corpus_root,file_pattern)#[2]
    
     ptb.fileids()
    
    展开全文
  • nltk punkt

    2017-09-05 09:52:07
    最后放置在 /usr/local/share/nltk_data/tokenizers 最后放置在 /usr/local/share/nltk_data/tokenizers 最后放置在 /usr/local/share/nltk_data/tokenizers
  • NLTK 会被自然地看作是具有栈结构的一系列层,这些层构建于彼此基础之上。那些熟悉人工语言(比如 Python)的文法和解析的读者来说,理解自然语言模型中类似的 —— 但更深奥的 —— 层不会有太大困难。尽管 NLTK ...
  • I have tried import nltk and nltk.download('stopwords') in the shell and it shows downloading at path "/home/ec2-user/nltk-data". I also tried adding the path using nltk.data.path....
  • 最近在学Python自然语言处理,要用到nltk这个库的各种内置语料库,然而我nltk.download()的时候经常下载一半就卡了,浪费了很多时间。特意分享给大家~
  • 使用方法:IE浏览器打开后,右击选择迅雷下载全部链接,可以批量下载,速度很快,或者手动下载地址http://www.nltk.org/nltk_data/
  • NLTK入门

    2019-04-15 09:54:50
    1,安装NLTK 首先需要安装python。然后打开终端,输入 import nltk nltk.download() 这是,会打开另一个界面,如下。选择Collection标签下的book,点击Download,等待完成下载。 book里面包含了很多本书的...
  • nltk_data文件

    2020-07-11 21:03:12
    解决win10环境下python3无法下载nltk_data的问题 原来的下载https://github.com/nltk/nltk_data特别慢,所以下载下来。这是直接下载下来的数据。 ①解压 ②把packages目录,把目录名改为nltk_data ③packages目录下...
  • NLTK finds the corpus using the environment variable <code>NLTK_DATA, so this PR: (a) downloads the NLTK corpus from S3 (same as the ORA role) and (b) adds the <code>NLTK_DATA</code> to the edxapp ...
  • Learn to build expert NLP and machine learning projects using NLTK and other Python librariesNatural Language Processing is a field of computational linguistics and artificial intelligence that deals ...
  • NLTK Essentials(PACKT,2015)

    2015-09-20 21:38:45
    Natural Language Toolkit (NLTK) is one such powerful and robust tool. You start with an introduction to get the gist of how to build systems around NLP. We then move on to explore data science-...
  • nltk download数据

    2017-02-23 11:00:44
    存在百度网盘上,自行下载,如果链接失效了,请发邮件联系。下载后直接解压,放在D,E根目录就可以使用,nltk会自动从几个地方去寻找数据
  • nltk-trainer, 用零代码训练NLTK对象 TrainerNLTK培训师使培训和评估NLTK对象尽可能容易。要求你必须拥有 python> =2.6 ( 但不是 3. x ) 和 argparse 和 NLTK 2.0安装。 NumPy scipy 和 megam
  • NLTK是什么

    2019-04-14 17:35:47
    Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
  • 基于python的NLTK

    2015-04-23 15:57:37
    nltk3.0 NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along ...
  • 自然语言处理工具NLTK

    2014-06-25 15:02:36
    nltk(natural language toolkit)是python的自然语言处理工具包。自然语言是指人们日常交流使用的语言,如英语,印地语,葡萄牙语等。“自然语言处理”(Natural Language Processing 简称NLP)包含所有用计算机对...
  • <div><p>Default timeout for get_url is 10s, and NLTK usually takes longer than this to download. <p><strong>JIRA tickets</strong>: <a href="https://openedx.atlassian.net/browse/OSPR-3825">OSPR-3825...
  • Python NLTK 数据

    2020-05-12 11:16:35
    python nltk库 所需数据,下载好后 设置 NLTK_DATA 环境变量指向您的顶层 nltk_data 文件夹。

空空如也

1 2 3 4 5 ... 20
收藏数 5,018
精华内容 2,007
关键字:

nltk