精华内容
下载资源
问答
  • https://blog.csdn.net/liu506039293/article/details/103972942
  • 本文信息本文由方法SEO顾问发表于2015-05-3023:05:55,共 2000 字,转载请注明:cygwin下用Python+jieba给文本分词并提取高频词_【方法SEO顾问】,如果我网站的文章对你有所帮助的话,来百度口碑给个好评呗!...

    本文信息本文由方法SEO顾问发表于2015-05-3023:05:55,共 2000 字,转载请注明:cygwin下用Python+jieba给文本分词并提取高频词_【方法SEO顾问】,如果我网站的文章对你有所帮助的话,来百度口碑给个好评呗!

    今晚小折腾了一下在

    目的

    分析某行业中,用户最关心的一些需求,再根据这一需求去调整站内TDK,以及一些频道、内容的规划

    过程

    1、下载安装

    2、cygwin安装时别忘记安装curl,wget,iconv,lynx,dos2unix,Python等常用工具,特别是Python,这次主要就是用它了。

    首选:https://github.com/fxsjy/jieba/archive/master.zip

    备用:https://pypi.python.org/pypi/jieba/

    4、安装jieba中文分词组件:

    全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba

    半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install

    手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录

    通过 import jieba 来引用

    5、复制以下代码,另存为“jiebacmd.py”

    6、新建一个文件夹,将你需要分词的文本和jiebacmd.py拷进去,记住文本需要另存为utf-8编码,然后在cygwin里用cd命令把工作目录切换进新建的文件夹,再输入以下命令:cat abc.txt|python jiebacmd.py|sort|uniq -c|sort -nr|head -100#encoding=utf-8

    #usage example (find top 100 words in abc.txt):

    #用途:找出abc.txt文件中出现频率最高的前100个词

    #复制以下命令到cygwin里运行,abc.txt是你文本的文件名,head -100可以自己改成想要提取的前多少个词

    #cat abc.txt | python jiebacmd.py | sort | uniq -c | sort -nr -k1 | head -100

    #以上都是注释,不影响程序运行

    from __future__ import unicode_literals

    import sys

    sys.path.append("../")

    reload(sys)

    sys.setdefaultencoding( "utf-8" )

    import jieba

    default_encoding='utf-8'

    if len(sys.argv)>1:

    default_encoding = sys.argv[1]

    while True:

    line = sys.stdin.readline()

    if line=="":

    break

    line = line.strip()

    for word in jieba.cut(line):

    print(word)

    结果

    效果如下图,完成16万个关键词的分词、去重、按关键词的出现次数排序、取出现次数最多的前10个词,只花了18秒。

    再来试个140万的词库,用时不到2分半:

    补充

    另有一示例脚本,也是提取高权重词的,貌似比上面的脚本更准确,代码如下:

    import sys

    sys.path.append('../')

    import jieba

    import jieba.analyse

    from optparse import OptionParser

    USAGE = "usage: python extract_tags.py

    复制代码另存为extract_tags.py,使用方式为在cygwin下面输入python extract_tags.py yttlj.txt -k 20,yttlj.txt是《倚天屠龙记》这部小说,统计里面出现次数最多的词,取前20名,结果如下:

    如果用一开始给的那个代码,将得到如下结果,可以看到,标点符号和

    展开全文
  • 任务:利用Jieba实现高频词提取。 首先在中找到并安装jieba(已安装好) 然后直接使用即可。 Jieba有很多种模式(cut\cut_for_search\lcut\lcut_for_search),本次使用后两种(全模式和搜索引擎模式)。  ...

    Jieba是一个中文分词工具,可以进行关键词提取、词性标注等,并在python等中提供了接口。

    任务:利用Jieba实现高频词的提取。

    首先在中找到并安装jieba(已安装好)

    然后直接使用即可。

    Jieba有很多种模式(cut\cut_for_search\lcut\lcut_for_search),本次使用后两种(全模式和搜索引擎模式)。

     

    首先利用open函数打开某txt文件,然后利用read把内容存储在某变量中(文件炒鸡大的时候read可能会无法使用)

    然后调用jieba.lcut(或lcut_for_search),会范围一个炒鸡长的列表,里边是对内容进行分词的结果,然后统计词频(只统计两个字以上)并放在字典中,最后使用sorted等函数进行排序即可。

    Jiaba.py:(以上学期某课的《红楼梦》为例)

    
    import jieba
    file=open('redmansiondream.txt',encoding="ansi")
    file_context=file.read()
    words1=jieba.lcut(file_context)#全模式
    words2=jieba.lcut_for_search(file_context)#搜索引擎模式
    
    #统计词频
    
    data1={}
    for chara in words1:
        if len(chara)<2:
            continue
        if chara in data1:
            data1[chara]+=1
        else:
            data1[chara]=1
            
    data1=sorted(data1.items(),key = lambda x:x[1],reverse = True) #排序
    
    
    data2={}
    for chara in words2:
        if len(chara)<2:
            continue
        if chara in data2:
            data2[chara]+=1
        else:
            data2[chara]=1
            
    data2=sorted(data2.items(),key = lambda x:x[1],reverse = True) #排序

    最后统计如下:

    (左为全模式,右为搜索引擎模式)

    展开全文
  • 最近研究seo和python如何结合,参考网上的一些资料,写的这个程序。目的:分析某个行业(例如:圆柱模板)用户最关心的一些,根据需求去自动调整TDK,以及栏目,内容页的规划使用方法:1、下载安装cygwin:...

    最近研究seo和python如何结合,参考网上的一些资料,写的这个程序。

    目的:分析某个行业(例如:圆柱模板)用户最关心的一些词,根据需求去自动调整TDK,以及栏目,内容页的规划

    使用方法:

    1、下载安装cygwin:http://www.cygwin.com/

    2、cygwin安装时别忘记安装curl,wget,iconv,lynx,dos2unix,Python等常用工具,特别是Python,这次主要就是用它了。

    3、去下载jieba中文分词组件:

    首选:https://github.com/fxsjy/jieba/archive/master.zip

    备用:https://pypi.python.org/pypi/jieba/

    4、安装jieba中文分词组件:

    全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba

    半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install

    手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录

    通过 import jieba 来引用

    5、复制以下代码,另存为“jiebacmd.py”

    6、新建一个文件夹,将你需要分词的文本和jiebacmd.py拷进去,记住文本需要另存为utf-8编码,然后在cygwin里用cd命令把工作目录切换进新建的文件夹,再输入以下命令:cat abc.txt|python jiebacmd.py|sort|uniq -c|sort -nr|head -100

    代码:

    #encoding=utf-8

    #usage example (find top 100 words in abc.txt):

    #用途:找出abc.txt文件中出现频率最高的前100个词

    #复制以下命令到cygwin里运行,abc.txt是你文本的文件名,head -100可以自己改成想要提取的前多少个词

    #cat abc.txt | python jiebacmd.py | sort | uniq -c | sort -nr -k1 | head -100

    #以上都是注释,不影响程序运行

    from __future__ import unicode_literals

    import sys

    sys.path.append("../")

    reload(sys)

    sys.setdefaultencoding( "utf-8" )

    import jieba

    default_encoding=‘utf-8‘

    if len(sys.argv)>1:

    default_encoding = sys.argv[1]

    while True:

    line = sys.stdin.readline()

    if line=="":

    break

    line = line.strip()

    for word in jieba.cut(line):

    print(word)

    展开全文
  • g = WordCloud() g.add(series_name="热点分析", data_pair=tags, word_size_range=[6, 66]) g.set_global_opts( title_opts=opts.TitleOpts( title="高频词条", title_textstyle_opts=opts.TextStyleOpts(font_...

    import pandas as pd

    import jieba

    import jieba.analyse

    filename = "E:\\数据处理\\隐患类型.txt"

    #载入数据

    df_data = pd.read_csv(filename, header=0, encoding=‘gbk‘, dtype=str)#DataFrame

    #去重并转换为list

    ls_data = df_data.drop_duplicates().values.tolist()#df_data.values为array类型

    ls_data = ";".join([str(j) for i in ls_data for j in i])#将列表元素转换为一个字符串,供lcut函数使用

    print(ls_data)

    seg_list = jieba.lcut(ls_data, cut_all=False, HMM=True) # 精确切割模式(默认为精确模式)

    seg = ‘/‘.join(seg_list)#str类型

    #关键词抽取

    tags = jieba.analyse.extract_tags(seg, topK=300, withWeight=True, allowPOS=(‘ns‘, ‘n‘, ‘vn‘, ‘v‘),)

    import pyecharts.options as opts

    from pyecharts.charts import WordCloud

    def wordcloud():

    g = WordCloud()

    g.add(series_name="热点分析", data_pair=tags, word_size_range=[6, 66])

    g.set_global_opts(

    title_opts=opts.TitleOpts(

    title="高频词条", title_textstyle_opts=opts.TextStyleOpts(font_size=23)

    ),

    tooltip_opts=opts.TooltipOpts(is_show=True),

    )

    #.render("basic_wordcloud.html")

    return g

    # 使用snapshot-selenium渲染成图片

    from snapshot_selenium import snapshot

    from pyecharts.render import make_snapshot

    make_snapshot(snapshot, wordcloud().render(), "E:\\数据处理\\词云图2.png")# 保存为图片

    原文:https://www.cnblogs.com/zxfei/p/13091810.html

    展开全文
  • python怎么提取关键词import re f = open("D:/xiangmu/python/xiangmu/gjc.txt", "r", encodi欢迎来到四十五资源网, 那个r'.*?('+ lste +').*?‘ 会吧你这个关键字前面和后面的文字都匹配了,所以当你的那个关键字...
  • Python高频代码

    2020-02-06 15:13:21
    文章目录 关闭warning的提示 返回对象的帮助文档 python的三目运算 如何离线安装module 利用pip升级全部的module 排序中的技巧 list中返回元素索引的函数 for循环也可以和else结合 python输出之format的用法 保存与...
  • separate_words(cls, text, min_lenth=3) 文本提取 get_words_frequency(cls, words_list) 获取词频 源码: class DocProcess(object): @classmethod def strip_html(cls, text): """ Delete ...
  • 使用Python 统计高频字数的方法

    千次阅读 2021-02-04 09:44:54
    使用Python 统计高频字数的方法发布时间:2020-09-17 00:52:12来源:脚本之家阅读:112作者:Silent_Summer问题(来自Udacity机器学习工程师纳米学位预览课程)用 Python 实现函数 count_words(),该函数输入字符串 s ...
  • 目的:实现中文分词,并提取高频词汇一、实现的效果初始的文本(wenben1.text)是网上随便复制的一段文本,主要内容如图所示:实现分词后的文本(wenben2.text):提取频率最高的10个词汇,显示结果如下:二、代码#!...
  • /usr/bin/env python# -*- coding: utf-8 -*-import jiebaimport jieba.analyseimport codecsimport refrom collections import Counterclass WordCounter(object):def count_from_file(self, file, top_limit=0):.....
  • 需要分割第一个表格中的机型,提取客户公司信息到第二个表格 实现效果 from openpyxl import load_workbook #1,读取工作表 wb = load_workbook("data\机型名称.xlsx") ws = wb.active #2,读取并拆分需要的...
  • 系统整理: python提取英文文献词频,并精准翻译!

    千次阅读 多人点赞 2020-05-09 01:12:27
    单词的词性进行还原,并借助停用词典,对停用进行剔除 def merge(text): words = text.split() new_words = [] for word in words: if word: tag = nltk.pos_tag(word_tokenize(word)) # tag is like [('...
  • LZ的同事写的文章经常被公司或者上级部门发表,LZ对此觉得同事写的文章一定有什么套路或者经常使用的词句,所以LZ收集了6篇同事的文章希望统计出其文章的高频词语以此可以效仿。 首先
  • 今天我来弄一个简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用,我用了一个停用词表。 具体...
  • z]+', raw_words.lower()) # 统计单词 c = Counter(words) # 提取出前词频前 100 的单词 c.most_common(100) 3. 翻译接口 使用了金山的API。 import requests # 请求API url = '...
  • Python快速统计文件中高频词

    千次阅读 多人点赞 2020-10-29 13:38:09
    b = a.read() # 对文件进行读操作 words = jieba.lcut(b) # words是直接生成一个装有的列表,即list count = {} # 定义一个字典 for word in words: # 枚举在文章中出现的词汇 if len(word) 排除字长小于2的 ...
  • python查询文章中的高频词汇

    千次阅读 2019-08-08 17:48:59
    英文文章中查询 def repeatNum(filename): with open(filename)as f: word_dict={} for i in f: i.strip() word_list = i.split() for j in word_list: ...
  • NLP之高频词提取

    2020-10-13 13:10:22
    print('样本之一:'+corpus[sample_inx]) print('样本分词效果:'+'/ '.join(split_words)) print('样本的topK(10):'+str(get_TF(split_words))) main() Building prefix dict from the default dictionary .....
  • python 中文词频提取

    万次阅读 2016-11-06 11:07:06
    1.直接提取 2.通过上级词汇与下级词汇比较,得出正常词语。 比如“谢谢你”和“谢你”,“谢谢”,“谢谢”出现的评论比“谢你”高,所以前者是一个词语而后者不是 同样比如“乌托邦”是一个固定词汇,那么...
  • 1.读取PDF文件,将其中的英文单词提取出来 2.获得每个英文单词的词频,通过字典将英文单词及其词频配对 3.将英文单词按照词频由大到小排序 4.创建并写入docx文档 首先打开PDF文件用到了pdfplumber第三方库,具体...
  • Python,从SQLServer中提取高频词生成词云图。如何做,有哪位大神提供下代码或学习资料
  • 高频词提取

    2020-03-03 14:49:20
    高频词一般指的是在文章中出现频率较高的且有意义的一些词语,一定程度上代表了文档的焦点所在。所以也可以将其当做关键词。 本文的分词工具使用了jieba分词。 首先,引入要用的包并且读取待处理的文档数据: import...
  • ') # works in python3 ['Hello', 'world', 'my', 'name', 'is', 'Élise'] """ return ''.join((c if c.isalnum() else ' ') for c in text).split()或.isalpha() 旁注:您也可以执行以下操作,但需要导入另一个...
  • 利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec聚类三种方法。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,006
精华内容 802
关键字:

python提取高频词

python 订阅