精华内容
下载资源
问答
  • python分词工具
    2021-05-20 12:33:32

    分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开分词,python中,有很多开源的分词工具。下面来介绍以下常见的几款。

    1. jieba 分词

    “结巴”分词,GitHub最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典。

    github star:26k

    代码示例

    import jieba
    
    strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
    
    for str in strs:
        seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
        print("Paddle Mode: " + '/'.join(list(seg_list)))
    
    seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
    print("全模式: " + "/ ".join(seg_list))  # 全模式
    
    seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
    print("精确模式: " + "/ ".join(seg_list))  # 精确模式
    
    seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
    print("新词识别:", ",".join(seg_list))
    
    seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
    print("搜索引擎模式:", ".join(seg_list))
    
     

    输出:

    【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
    
    【精确模式】: 我/ 来到/ 北京/ 清华大学
    
    【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)
    
    【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
    


    github地址:https://github.com/fxsjy/jieba

    2. pkuseg 分词

    pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具,它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型。相比通用分词工具,它的分词准确率更高 。

    github star:5.4k

    代码示例

    import pkuseg
    
    seg = pkuseg.pkuseg()           # 以默认配置加载模型
    text = seg.cut('python是一门很棒的语言')  # 进行分词
    print(text)
    

    输出

    ['python', '是', '一', '门', '很', '棒', '的', '语言']
    

    github地址:https://github.com/lancopku/pkuseg-python

    3. FoolNLTK 分词

    基于BiLSTM模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典。

    GitHub  star: 1.6k

    代码示例

    import fool
    
    text = "一个傻子在北京"
    print(fool.cut(text))
    # ['一个', '傻子', '在', '北京']
    

    github地址:https://github.com/rockyzhengwu/FoolNLTK

    4. THULAC

    THULAC由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包。具有词性标注功能,能分析出某个词是名词还是动词或者形容词。

    github star:1.5k

     代码示例1
      代码示例1
     import thulac  
    
     thu1 = thulac.thulac()  #默认模式
     text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
     print(text) # 我_r 爱_v 北京_ns 天安门_ns
     代码示例2
     thu1 = thulac.thulac(seg_only=True)  #只进行分词,不进行词性标注
     thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词,输出到output.txt
    

    github地址:https://github.com/thunlp/THULAC-Python

    目前我在用的还是结巴分词,配合用户自定义词典,解决常见的网络词语。

    更多相关内容
  • python分词

    2017-11-21 20:19:29
    python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词...
  • python 分词程序

    2012-10-31 14:34:18
    利用GBK编码实现的分词程序,可读性不错。
  • Python分词及词性划分

    2022-04-06 21:55:39
    Python分词及词性划分

    下载Python

    Python官网 python.org/download/
    下载python,下图打勾, 可以自动配置PATH

    验证:
    安装成功后,打开命令提示符窗口(win+R,在输入cmd回车),敲入python

    如果失败 配置环境变量有问题 手动配一下

    下载开发工具

    安装PyCharm工具
    PyCharm官网 jetbrains.com/pycharm/download/
    下载好之后可以下载中文插件


    新建项目
    然后新建Python文件

    英文分词

    下载nltk

    在终端输入
    pip install nltk
    

    下载之后还要下载nltk的包

    会科学上网的话,直接:
    import nltk
    nltk.download('punkt')
    

    不会科学上网就手动下好了
    nltk包下载 github.com/nltk/nltk_data
    下载packages就行

    下载好后把,packages放在随意一个 报错 的位置
    将 packages 重命名成 nltk_data
    
    Searched in:
        - 'C:\\Users\\86187/nltk_data'
        - 'D:\\ProgramData\\Anaconda3\\envs\\emotional_analysis\\nltk_data'
        - 'D:\\ProgramData\\Anaconda3\\envs\\emotional_analysis\\share\\nltk_data'
        - 'D:\\ProgramData\\Anaconda3\\envs\\emotional_analysis\\lib\\nltk_data'
        - 'C:\\Users\\86187\\AppData\\Roaming\\nltk_data'
        - 'C:\\nltk_data'
        - 'D:\\nltk_data'
        - 'E:\\nltk_data'
        - ''
    

    记得把要用到的包解压

    from nltk import word_tokenize, pos_tag
    
    english = "When someone asked me about my favorite season, my answer certainly is spring. Because all the plants turn green and come into leaf in spring. And some kinds of flowers also become in bloom. "
    # 英文分词
    english = "When someone asked me about my favorite season, my answer certainly is spring. Because all the plants turn " \
              "green and come into leaf in spring. And some kinds of flowers also become in bloom. The spring makes the " \
              "world colorful. For too many people, spring means the beginning of a new year, and the green color of " \
              "spring represents hope. As far as I’m concerned, spring has the meaning of fresh and newly born. The " \
              "newborn seems to bring me energy and enthusiasm all the time. "
    english_list = word_tokenize(english)
    print("英文分词:" + ",".join(english_list))
    
    # 提取名词/动词
    words = pos_tag(english_list)
    noun = "名词:"
    verb = "动词:"
    for word in words:
        if word[1] in {"NN", "NNP", "NNS"}:
            noun = noun + "".join(word[0]) + ","
        if word[1] in {"VBD", "VBN", "VB"}:
            verb = verb + "".join(word[0]) + ","
    # print([word for word in words ])
    print(noun)
    print(verb)
    

    从外部读取文件分词

    # 读取外部文件
    f = open("English.txt", "r")  # 设置文件对象
    str_e = f.read()  # 将txt文件的所有内容读入到字符串str中
    f.close()
    str_e_list = word_tokenize(str_e)
    print("英文分词:" + ",".join(str_e_list))
    
    # 提取名词/动词
    words_str = pos_tag(str_e_list)
    noun_str = "名词:"
    verb_str = "动词:"
    for word in words_str:
        if word[1] in {"NN", "NNP", "NNS"}:
            noun_str = noun_str + "".join(word[0]) + ","
        if word[1] in {"VBD", "VBN", "VB"}:
            verb_str = verb_str + "".join(word[0]) + ","
    # print([word for word in words ])
    print(noun_str)
    print(verb_str)
    

    中文分词-jieba

    下载jieba

    在终端输入
    pip install jieba
    
    import jieba
    import jieba.posseg as pseg
    
    # 中文分词
    s = "如何才能更早发现疫情?在当前条件下应该采取什么样的管理措施,才能够快速找到密切接触者,让他们配合进行医学观察?会上,针对记者提问,中国疾控中心流行病学首席专家吴尊友予以回应。"
    s_list = jieba.cut(s)
    print ("Default Mode:", ",".join(s_list))
    # 提取名词
    noun = ""
    verb = ""
    words = pseg.cut(s)
    for w in words:
        if w.flag == "n":
            noun = noun + "".join(w.word) + ","
        if w.flag == "v":
            verb = verb + "".join(w.word) + ","
        # print (w.word,w.flag)
    print("名词:"+noun)
    print("动词:"+verb)
    

    展开全文
  • python之中文分词

    2021-01-06 18:16:56
    2、分词练习 3、为jieba添加自定义的词典 4、知识点普及 1)分词文件怎么写 2)jieba.cut()参数说明 5、搜索引擎模式 1、安装和使用jieba 直接用命令:pip3 install jieba就可以了,如图所示表示成功。 2、分词练习...
  • jieba青春有你2自定义分词词典,青春有你2评论爬取,青春有你2视频饭圈自定义分词词典,jieba分词Python分词词典
  • Python 分词

    2016-01-07 09:45:14
    利用Python进行中英文分词,另外还支持中英文索引。
  • 大家好,我是菜鸟哥!分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开分词Python 中有很多开源的分词工具,下面给大家介绍几款常...

    大家好,我是菜鸟哥!

    分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开分词

    Python 中有很多开源的分词工具,下面给大家介绍几款常见的分词依赖库

    1. jieba 分词

    “结巴” 分词,GitHub 最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典

    github star:26k

    代码示例

    import jieba
    
    strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
    
    for str in strs:
        seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
        print("Paddle Mode: " + '/'.join(list(seg_list)))
    
    seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
    print("全模式: " + "/ ".join(seg_list))  # 全模式
    
    seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
    print("精确模式: " + "/ ".join(seg_list))  # 精确模式
    
    seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
    print("新词识别:", ",".join(seg_list))
    
    seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
    print("搜索引擎模式:", ".join(seg_list))
    

    输出:

    【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
    
    【精确模式】: 我/ 来到/ 北京/ 清华大学
    
    【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)
    
    【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
    


    项目地址:

    https://github.com/fxsjy/jieba

    2. pkuseg 分词

    pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具

    它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型

    相比通用分词工具,它的分词准确率更高 

    github star:5.4k

    代码示例

    
    import pkuseg
    
    seg = pkuseg.pkuseg()           # 以默认配置加载模型
    text = seg.cut('python是一门很棒的语言')  # 进行分词
    print(text)
    

    输出

    ['python', '是', '一', '门', '很', '棒', '的', '语言']

    项目地址:

    https://github.com/lancopku/pkuseg-python

    3. FoolNLTK 分词

    基于 BiLSTM 模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典

    GitHub  star: 1.6k

    代码示例

    import fool
    
    text = "一个傻子在北京"
    print(fool.cut(text))
    # ['一个', '傻子', '在', '北京']
    

    项目地址:

    https://github.com/rockyzhengwu/FoolNLTK

    4. THULAC

    THULAC 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包


    它具有词性标注功能,能分析出某个词是名词还是动词或者形容词

    github star:1.5k

     代码示例1
      代码示例1
     import thulac  
    
     thu1 = thulac.thulac()  #默认模式
     text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
     print(text) # 我_r 爱_v 北京_ns 天安门_ns
     代码示例2
     thu1 = thulac.thulac(seg_only=True)  #只进行分词,不进行词性标注
     thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词,输出到output.txt
    

    项目地址:

    https://github.com/thunlp/THULAC-Python

    目前我在用的还是结巴分词,配合用户自定义词典,解决常见的网络词语

    你在用什么分词工具,欢迎留下你的意见!

    推荐阅读:入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 |   从万众期待到口碑扑街!唐探3令人失望  | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影年度爆款文案1).卧槽!Pdf转Word用Python轻松搞定!2).学Python真香!我用100行代码做了个网站,帮人PS旅行图片,赚个鸡腿吃3).首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密 4).80行代码!用Python做一个哆来A梦分身 5).你必须掌握的20个python代码,短小精悍,用处无穷 6).30个Python奇淫技巧集 7).我总结的80页《菜鸟学Python精选干货.pdf》,都是干货 8).再见Python!我要学Go了!2500字深度分析!9).发现一个舔狗福利!这个Python爬虫神器太爽了,自动下载妹子图片点阅读原文,领廖雪峰资料包!
    
    展开全文
  • nlp 隐马尔可夫分词 python 程序
  • Python Jieba中文分词工具实现分词功能,Python Jieba中文分词工具实现分词功能
  • main.py #coding: utf-8 ''' 程序运行前,需要用词云图文件夹下的wordcloud.py替换掉以下路径中的wordcloud.py Anaconda3\Lib\site-packages\wordcloud 以上路径为pip install wordcloud下载包所在路径,如果涉及...

    main.py

    #coding: utf-8
    '''
    程序运行前,需要用词云图文件夹下的wordcloud.py替换掉以下路径中的wordcloud.py
    Anaconda3\Lib\site-packages\wordcloud
    以上路径为pip install wordcloud下载包所在路径,如果涉及虚拟环境,则进入以下路径
    Anaconda3\envs\***\Lib\site-packages\wordcloud
    替换原因:原来的wordcloud.py无法返回生成的词语和频率
    '''
    import jieba.analyse
    import jieba
    import wordcloud
    # import pandas as pd
    
    def cut(text):
        # 选择分词模式
        word_list = jieba.cut(text, cut_all=True)
        # 分词后在单独个体之间加上空格
        result = " ".join(word_list)
        # 返回分词结果
        return result
    
    if __name__ == '__main__':
    
        # 载入自定义词典
        jieba.load_userdict('dict.txt')
    
        src = 'text.txt'
        f = open(src, 'r', encoding='utf-8')
        text = f.read()
        text = cut(text)
        # print(text)
        w = wordcloud.WordCloud(font_path='msyh.ttc', width=1000, height=700, background_color='white')
        w.generate(text)
        words_dict = w.return_words  # 字典
        # for k, v in words.items():
        #     print(k)
    
        w.to_file('grwordcloud.png')
    
    

    wordcloud.py

    class WordCloud(object):
    	def __init__(self,...)
    		...
    		self.return_words = {}
    		...
    	def generate_from_frequencies(self, frequencies, max_font_size=None):
    
    		...
    		for word, freq in frequencies:
    			...
    			self.return_words[word] = freq
    			...
    		...
    		return self
    
    展开全文
  • :)(——' for i in s: if i not in x: t+=i #将初步处理后的文本另存(看看处理效果,可去除这一步) with open("政府工作报告_去除符号.txt",'w') as f: f.write(t) f.close() #使用jieba进行分词 with open(...
  • 分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开分词python中,有很多开源的分词工具。下面来介绍以下常见的几款。 1. jieba 分词 “结巴”分词...
  • 使用jieba分词时可以针对性的加入用户自定义词典(jieba.load_userdict(“userDict.txt”) # 加载用户自定义词典),可以提高对人名,地名等未登陆词的识别效果,提高分词性能。 原文参考
  • python分词基础

    千次阅读 2018-03-22 11:57:13
    本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍1.1 中文...
  • python 分词器使用

    千次阅读 2018-08-08 11:02:32
    jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba 清华大学THULAC:一个高效的中文词法分析工具包 https://github.com/thunlp/THULAC-Python FoolNLTK可能不是最快的开源中文...
  • 今天要说的是Python中的分词库——jieba库。最近一段时间由于公司电商部的需要,领导让我写个文章伪原创的小demo,主要是为了SEO优化而服务的。大家都知道,网站SEO做好了,能为公司省下一大笔开支。废话不多说,...
  • python分词与去停用词简单实操

    千次阅读 2022-03-29 23:10:18
    为提高分词精度,本词典中包含大量区块链技术领域专业词汇。 二、操作过程 1、原始数据 2、去停用词 ####加载停用词 def load_stopword(): f_stop = open('stopwordsHIT.txt', encoding='utf-8') # 自己的中文停用...
  • 在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,...
  • python分词和词频统计

    千次阅读 2019-03-04 17:31:51
    Python大数据:jieba分词,词频统计 黑冰中国关注 0.12018.03.21 11:39*字数 1717阅读 7553评论 6喜欢 45赞赏 1 实验目的 学习如何读取一个文件 学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理...
  • 本文将基于爬虫得到的《三国演义》全文,借助jieba、wordcloud库进行分词并绘制词云; 词云类型由易到繁分为三类:普通型,特定形状型,特定形状和颜色型; 本文目录库的安装jieba分词普通词云特定形状型特定形状...
  • python 分词和去停用词

    2020-03-08 22:22:54
    https://www.cnblogs.com/zuixime0515/p/9221156.html
  • Python分词系统jieba代码(有注释,无报错)!!!!!!!!!!!!!!!!!!!
  • Python实现文本分词切词的流程和代码实现(设计与实现)
  • 今天小编就为大家分享一篇python正向最大匹配分词和逆向最大匹配分词的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 用于中文文本分词,去停用词,包含基本的停用词词典,可根据需要进行扩充。
  • python分词程序

    2009-07-06 14:44:19
    python写的分词程序,采用前向,后向匹配。
  • 中文公司名称分词工具,支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取。 对公司名文本解析,识别并提取地名、品牌名、行业词、公司名后缀词。
  • Python 分词,词频统计,寻找公共词
  • 结巴分词Python代码

    2014-08-26 20:24:16
    结巴分词,很不错的分词工具,python写的,亲身试用,不管英文还是中文分得很准!

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 47,607
精华内容 19,042
关键字:

python分词

友情链接: test7_EEPROM.zip