精华内容
下载资源
问答
  • 使用nltk英文文本分词

    2021-03-08 20:11:03
    需要对英文句子按空格进行分词,使用nltk.word_tokenize分词即可,返回的是分好词的列表,比较麻烦的是nltk的下载。 import nltk i = "The ENT physicians did not recommend any procedures , incision and ...

    前言

    需要对英文句子按空格进行分词,使用nltk.word_tokenize分词即可,返回的是分好词的列表,比较麻烦的是nltk的下载。

    import nltk
    i = "The ENT physicians did not recommend any procedures , incision and drainage for his right parotitis or left submandibular cervical lymph node necrosis ."
    tmp_sen_words = nltk.word_tokenize(i)
    tmp_sen_words
    

    在这里插入图片描述

    安装nltk

    在Anaconda终端(Anaconda Prompt)安装nltk:

    pip install nltk
    

    安装成功之后,使用时会发现报错,按照提示信息,使用下面的代码进行下载:

    import nltk
    nltk.download()
    

    此时,会弹出官网的地址,下载比较慢,可以使用下面博客中提供的网盘链接进行下载:
    nltk
    下载结束后,解压到报错的任一路径下即可使用,一定要把文件最里面的也解压
    在这里插入图片描述
    此时,再次运行还是会报错,一定要仔细看报错的路径,与其他博主不同的是,我需要自己手动加一个PY3文件夹,再将用到的pickle文件挪入才能正常使用
    在这里插入图片描述

    展开全文
  • 使用NLTK进行英文分词

    2020-08-20 14:52:03
    使用NLTK进行英文分词 import nltk import re english='C:\\Users\\pc\\CapStone\\english.txt' with open(english,'r',encoding='utf-8') as file: u=file.read() str=re.sub('[^\w ]','',u) print(nltk.word_...

    使用NLTK进行英文分词

    import nltk
    import re
    english='C:\\Users\\pc\\CapStone\\english.txt'
    with open(english,'r',encoding='utf-8') as file:
        u=file.read()
    str=re.sub('[^\w ]','',u)
    print(nltk.word_tokenize(str))
    print(nltk.pos_tag(nltk.word_tokenize(str))) #对分完词的结果进行词性标注

    #result

    ['Trump', 'was', 'born', 'and', 'raised', 'in', 'the', 'New', 'York', 'City', 'borough', 'of', 'Queens', 'and', 'received', 'an', 'economics', 'degree', 'from', 'the', 'Wharton', 'School', 'He', 'was', 'appointed', 'president', 'of', 'his', 'familys', 'real', 'estate', 'business', 'in', '1971', 'renamed', 'it', 'The', 'Trump', 'Organization', 'and', 'expanded', 'it', 'from', 'Queens', 'and', 'Brooklyn', 'into', 'Manhattan', 'The', 'company', 'built', 'or', 'renovated', 'skyscrapers', 'hotels', 'casinos', 'and', 'golf', 'courses', 'Trump', 'later', 'started', 'various', 'side', 'ventures', 'including', 'licensing', 'his', 'name', 'for', 'real', 'estate', 'and', 'consumer', 'products', 'He', 'managed', 'the', 'company', 'until', 'his', '2017', 'inauguration', 'He', 'coauthored', 'several', 'books', 'including', 'The', 'Art', 'of', 'the', 'Deal', 'He', 'owned', 'the', 'Miss', 'Universe', 'and', 'Miss', 'USA', 'beauty', 'pageants', 'from', '1996', 'to', '2015', 'and', 'he', 'produced', 'and', 'hosted', 'The', 'Apprentice', 'a', 'reality', 'television', 'show', 'from', '2003', 'to', '2015', 'Forbes', 'estimates', 'his', 'net', 'worth', 'to', 'be', '31', 'billion']
    [('Trump', 'NNP'), ('was', 'VBD'), ('born', 'VBN'), ('and', 'CC'), ('raised', 'VBN'), ('in', 'IN'), ('the', 'DT'), ('New', 'NNP'), ('York', 'NNP'), ('City', 'NNP'), ('borough', 'NN'), ('of', 'IN'), ('Queens', 'NNP'), ('and', 'CC'), ('received', 'VBD'), ('an', 'DT'), ('economics', 'NNS'), ('degree', 'NN'), ('from', 'IN'), ('the', 'DT'), ('Wharton', 'NNP'), ('School', 'NNP'), ('He', 'PRP'), ('was', 'VBD'), ('appointed', 'VBN'), ('president', 'NN'), ('of', 'IN'), ('his', 'PRP$'), ('familys', 'JJ'), ('real', 'JJ'), ('estate', 'NN'), ('business', 'NN'), ('in', 'IN'), ('1971', 'CD'), ('renamed', 'VBD'), ('it', 'PRP'), ('The', 'DT'), ('Trump', 'NNP'), ('Organization', 'NNP'), ('and', 'CC'), ('expanded', 'VBD'), ('it', 'PRP'), ('from', 'IN'), ('Queens', 'NNP'), ('and', 'CC'), ('Brooklyn', 'NNP'), ('into', 'IN'), ('Manhattan', 'NNP'), ('The', 'DT'), ('company', 'NN'), ('built', 'VBD'), ('or', 'CC'), ('renovated', 'VBD'), ('skyscrapers', 'NNS'), ('hotels', 'NNS'), ('casinos', 'NNS'), ('and', 'CC'), ('golf', 'NN'), ('courses', 'NNS'), ('Trump', 'NNP'), ('later', 'RB'), ('started', 'VBD'), ('various', 'JJ'), ('side', 'NN'), ('ventures', 'NNS'), ('including', 'VBG'), ('licensing', 'VBG'), ('his', 'PRP$'), ('name', 'NN'), ('for', 'IN'), ('real', 'JJ'), ('estate', 'NN'), ('and', 'CC'), ('consumer', 'NN'), ('products', 'NNS'), ('He', 'PRP'), ('managed', 'VBD'), ('the', 'DT'), ('company', 'NN'), ('until', 'IN'), ('his', 'PRP$'), ('2017', 'CD'), ('inauguration', 'NN'), ('He', 'PRP'), ('coauthored', 'VBD'), ('several', 'JJ'), ('books', 'NNS'), ('including', 'VBG'), ('The', 'DT'), ('Art', 'NN'), ('of', 'IN'), ('the', 'DT'), ('Deal', 'NNP'), ('He', 'PRP'), ('owned', 'VBD'), ('the', 'DT'), ('Miss', 'NNP'), ('Universe', 'NNP'), ('and', 'CC'), ('Miss', 'NNP'), ('USA', 'NNP'), ('beauty', 'NN'), ('pageants', 'NNS'), ('from', 'IN'), ('1996', 'CD'), ('to', 'TO'), ('2015', 'CD'), ('and', 'CC'), ('he', 'PRP'), ('produced', 'VBD'), ('and', 'CC'), ('hosted', 'VBD'), ('The', 'DT'), ('Apprentice', 'NNP'), ('a', 'DT'), ('reality', 'NN'), ('television', 'NN'), ('show', 'NN'), ('from', 'IN'), ('2003', 'CD'), ('to', 'TO'), ('2015', 'CD'), ('Forbes', 'NNP'), ('estimates', 'VBZ'), ('his', 'PRP$'), ('net', 'JJ'), ('worth', 'NN'), ('to', 'TO'), ('be', 'VB'), ('31', 'CD'), ('billion', 'CD')]

     

     

    english.txt内容:

    Trump was born and raised in the New York City borough of Queens and received an economics degree from the Wharton School. He was appointed president of his family's real estate business in 1971, renamed it The Trump Organization, and expanded it from Queens and Brooklyn into Manhattan. The company built or renovated skyscrapers, hotels, casinos, and golf courses. Trump later started various side ventures, including licensing his name for real estate and consumer products. He managed the company until his 2017 inauguration. He co-authored several books, including The Art of the Deal. He owned the Miss Universe and Miss USA beauty pageants from 1996 to 2015, and he produced and hosted The Apprentice, a reality television show, from 2003 to 2015. Forbes estimates his net worth to be $3.1 billion.

    展开全文
  • jieba nltk 进行中英文分词

    千次阅读 2020-01-14 10:38:14
    Jieba、NLTK等中英文分词工具进行分词 建议:中文分词使用 jieba(SnowNlp、THULAC、NLPIR、StanfordCoreNLP)进行分词英文使用 NLTK进行分词;还有git上的一个英文文本分词(无空格)模块wordninja。 1.中文分词 1....

    Jieba、NLTK等中英文分词工具进行分词
    建议:中文分词使用 jieba(SnowNlp、THULAC、NLPIR、StanfordCoreNLP)进行分词,英文使用 NLTK进行分词;还有git上的一个英文文本分词(无空格)模块wordninja
    1.中文分词
    1.jieba分词
    import jieba import re
    Chinese=‘央视315晚会曝光湖北省知名的神丹牌、莲田牌“土鸡蛋”实为普通鸡蛋冒充,同时在商标上玩猫腻,分别注册“鲜土”、注册“好土”商标,让消费者误以为是“土鸡蛋”。3月15日晚间,新京报记者就此事致电湖北神丹健康食品有限公司方面,其工作人员表示不知情,需要了解清楚情况,截至发稿暂未取得最新回应。新京报记者还查询发现,湖北神丹健康食品有限公司为农业产业化国家重点龙头企业、高新技术企业,此前曾因涉嫌虚假宣传“中国最大的蛋品企业”而被罚6万元。’
    str=re.sub(’[^\w]’,’’,chinese) #使用正则去符号,之后都是用这个str字符串
    seg_list=jieba.cut(s_list, cut_all=False) #精确模式 print(’/’.join(seg_list))

    2.nltk分词
    import nltk import re
    english=‘H:\\自然语言处理\\Experiment2\\English.txt’ with open(english,‘r’,encoding=‘utf-8’) as file:
    u=file.read() str=re.sub(’[^\w ]’,’’,u) print(nltk.word_tokenize(str)) print(nltk.pos_tag(nltk.word_tokenize(str)))
    #对分完词的结果进行词性标注

    3.模块wordninja 分词
    下面简单以实例看一下它的功能: ‘’’ https://github.com/yishuihanhan/wordninja ‘’’
    import wordninja
    print(wordninja.split(‘derekanderson’) print(wordninja.split(‘imateapot’) print(wordninja.split(‘wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica’) print(wordninja.split(‘littlelittlestar’)
    结果如下: [‘derek’, ‘anderson’] [‘im’, ‘a’, ‘teapot’] [‘we’, ‘the’, ‘people’, ‘of’, ‘the’, ‘united’, ‘states’, ‘in’, ‘order’, ‘to’, ‘form’, ‘a’, ‘more’, ‘perfect’, ‘union’, ‘establish’, ‘justice’, ‘in’, ‘sure’, ‘domestic’, ‘tranquility’, ‘provide’, ‘for’, ‘the’, ‘common’, ‘defence’, ‘promote’, ‘the’, ‘general’, ‘welfare’, ‘and’, ‘secure’, ‘the’, ‘blessings’, ‘of’, ‘liberty’, ‘to’, ‘ourselves’, ‘and’, ‘our’, ‘posterity’, ‘do’, ‘ordain’, ‘and’, ‘establish’, ‘this’, ‘constitution’, ‘for’, ‘the’, ‘united’, ‘states’, ‘of’, ‘america’] [‘little’, ‘little’, ‘star’]

    展开全文
  • 于是乎,只能写出下面的 一 些功能,虽然不是基于爬取网页后在进行网页分析,是直接对一个事先准备好的文本进行预处理,我的代码的功能有去除一个文本里面的所有中文文本,然后对英文单词进行分词处理。下面就来介绍一下...

                                             英文文本预处理---!

              最近正在复习正则表达式,学习文本处理,今天就来处理一下英文文本,由于在下学到的知识不多,于是乎,只能写出下面的一些功能,虽然不是基于爬取网页后在进行网页分析,是直接对一个事先准备好的文本进行预处理,我的代码的功能有去除一个文本里面的所有中文文本,然后对英文单词进行分词处理。下面就来介绍一下吧!

                                                       

    首先,是需要导入的库,这里需要说明的是,停用词库需要到命令行中进入python进行下载,这里放一个简单的教程。

    第一步:打开命令行窗口,输入python

     

    第二步:先后输出如下命令:

    >>>import nltk   

    >>>nltk.download()

    在这之后你会进入一个界面,你会找到stopwords然后在左下角有一个download按钮,点击一下就可以下载了.这里我因为下载过了,出了点问题进不去那个窗口,不过大家按照这个                                                          方法是可以进去的  

     

    安装完成之后,以下是导入的库:

    import re
    import nltk
    from enchant.checker import SpellChecker
    from nltk.corpus import stopwords

    接下来呢,我就先输入一个需要处理的文本,初始文本中我故意把"amm" " jast" "booy" "basketball"打错来测试拼写检查。然后使用正则表达式中的sub函数来进行去除中文的操作.

    ##初始文本中我故意把"amm" " jast" "booy" "basketball"打错来测试拼写检查
    text = 'I amm我是 一个普通的喜欢篮球的男生啊 jast a booy, and (( loved 我baskerball 还a lot. Just a lucky boy喜欢.'
    
    ##使用去除中文
    text = re.sub('[\u4e00-\u9fa5]','',text)
    print('去除中文后:')
    print(text)

    然后分别使用re正则表达式和nltk库的分词器对去除中文后的文本进行分词处理。事实证明两种方法得出的结果是一样的,大家可以使用别的测试文本再试一下。说不定会发生小概率事件呢,哈哈哈

    part = r"""(?x)                   
    	           (?:[A-Z]\.)+          
    	           |\d+(?:\.\d+)?%?      
    	           |\w+(?:[-']\w+)*       
    	           |\.\.\.  
    	           |\S\w* 
    	           |\w+         
    	           |(?:[.,;"'?():-_`])    
    	         """
    
    texti = nltk.regexp_tokenize(text,part)
    print('使用nltk库正则表达式对文本进行分词处理:')
    print(nltk.regexp_tokenize(text,part))##使用nltk库的正则表达式分词器
    print('使用re正则表达式对文本进行分词处理:')
    print(re.findall(part,text))##使用re正则表达式方法

    然后就是停用词处理,因为下面的拼写检查会用到原文本,所以停用词我使用了一个新的文本进行储存.

    ##停用词
    stopwordd = set(stopwords.words('english'))
    word = [i for i in texti if i not in stopwordd]
    print('去除停用词后:')
    print(word)

    最后就是拼写检查了,在原始文本中我故意写错了四个单词,看看它能不能查出来,使用一个标记变量来记录写错单词的个数,以及一个数组来存储错误的单词.

    ##停用词
    stopwordd = set(stopwords.words('english'))
    word = [i for i in texti if i not in stopwordd]
    print('去除停用词后:')
    print(word)

    完整代码:

    import re
    import nltk
    from enchant.checker import SpellChecker
    from nltk.corpus import stopwords
    
    ##初始文本中我故意把"amm" " jast" "booy" "basketball"打错来测试拼写检查
    text = 'I amm我是 一个普通的喜欢篮球的男生啊 jast a booy, and (( loved 我baskerball 还a lot. Just a lucky boy喜欢.'
    
    ##使用去除中文
    text = re.sub('[\u4e00-\u9fa5]','',text)
    print('去除中文后:')
    print(text)
    part = r"""(?x)                   
    	           (?:[A-Z]\.)+          
    	           |\d+(?:\.\d+)?%?      
    	           |\w+(?:[-']\w+)*       
    	           |\.\.\.  
    	           |\S\w* 
    	           |\w+         
    	           |(?:[.,;"'?():-_`])    
    	         """
    
    texti = nltk.regexp_tokenize(text,part)
    print('使用nltk库正则表达式对文本进行分词处理:')
    print(nltk.regexp_tokenize(text,part))##使用nltk库的正则表达式分词器
    print('使用re正则表达式对文本进行分词处理:')
    print(re.findall(part,text))##使用re正则表达式方法
    
    ##停用词
    stopwordd = set(stopwords.words('english'))
    word = [i for i in texti if i not in stopwordd]
    print('去除停用词后:')
    print(word)
    
    ##拼写查找
    spell = SpellChecker("en_US")
    spell.set_text(text)
    ##这里用标记变量t记录次数
    t = 0
    errword = []
    for j in spell:
        t = t + 1
        errword.append(j.word)
    
    print('共发现错误的词数为:'+str(t))
    print('这些拼写错误的单词依次为:')
    print(errword)
    
    
    
    
    
    
    

    如果大家有什么好的建议,或者有什么想说的,欢迎指点迷津!谢谢大家的阅读,希望我的文章能对大家学习python有所帮助.

     

    展开全文
  • Jieba、NLTK等中英文分词工具进行分词

    万次阅读 多人点赞 2019-03-20 23:03:40
    实验目的: 利用给定的中英文文本序列(见 Chinese.txt 和 English.txt),分别利用以下给定的中 英文分词工具进行分词并对不同分词工具产生的结果进行简要对比分析。...英文 NLTK、SpaCy、StanfordCore...
  • 利用NLTK做中英文分词

    千次阅读 2020-04-01 14:48:17
    美图欣赏: 一.NLTK环境配置 1.安装nltk包(如果开始能装 忽然爆红 多装几次) pip install nltk 2.在python consol里面 //1.... import nltk ...//2....利用NLTK英文分词 这里选用的是anaconda做...
  • 斯坦福NLTK分词工具 1 CRF方法实例 一. 文本分词概述 文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。由计算机实现的文本分词结果也应该满足人类思维阅读文本时的处理模式。在现实中...
  • 一、NLTK 的安装如果是python 2.x 的环境,安装命令如下:sudo pip install nltk如果是python 3.x 的环境,安装命令如下:sudo pip3 install nltk成功地执行了上述命令后,NLTK 的安装还没有彻底地完成,还需要在 ...
  • NLTK进行英文分句和分词

    万次阅读 2017-10-20 15:40:00
    中文分句和分词可以使用pyltp。...在使用pyltp进行英文分词和分句的时候会出现错误,这个时候就可以使用NLTK进行英文的分句和分词。http://blog.csdn.net/baidu_27438681/article/details/60468848
  • 本文将介绍以下内容: 使用 jieba 分词 使用 pyltp 分词 使用 pkuseg 分词 使用 nltk 分词 通常,NLP无法一下子处理完整的段落或句子,因此,第一步往往是分句和分词。...nltk 工具一般在英文文本中作为词嵌入
  • 黄聪:Python+NLTK自然语言处理学习(一):环境搭建http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html安装NLTK可能出现的问题:1. pip install ntlk2. 如果遇到缺少stopwords报错如下:...
  • 文本预处理是要文本处理成计算机能识别的格式,是文本分类、文本可视化、文本分析等研究的重要步骤。具体流程包括文本分词、去除停用词、...文本分词文本分词即将文本拆解成词语单元,英文文本以英文单词空格连接成...
  • 安装和使用NLTK分词和去停词

    千次阅读 2017-02-09 17:33:02
    安装和使用NLTK分词和去停词 南渚 2016-01-14 14:56:12 安装NLTK可能出现的问题: 1. pip install ntlk 2. 如果遇到缺少stopwords报错如下:(http://johnlaudun.org/20130126-nltk-stopwords/) ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,689
精华内容 1,075
关键字:

nltk英文分词