精华内容
下载资源
问答
  • python词频统计_英文2020-08-15 05:22阅读数 22代码大家都在写中文的词频统计,我接触了python都有好几年了,还写英文的,真的是,就。直接贴个代码吧。text = """ British newspapers are much smaller than they ...

    python词频统计_英文

    2020-08-15 05:22

    阅读数 22

    <>代码

    大家都在写中文的词频统计,我接触了python都有好几年了,还写英文的,真的是,就。直接贴个代码吧。

    text = """ British newspapers are much smaller than they used to be and their

    readers are often in a hurry , so newspapermen write as few words as possible .

    They tell their readers at once what happened , where , when and how it

    happened and what was the result : how many people were killed , what change

    was done and so on . Readers want the fact set out as fully and accurately as

    possible . Readers are also interested in the people who have seen the accident

    . So a newspaperman always likes to get some information from someone who was

    there , which can be given in the person’s own words . Because he can use only

    a few words , the newspaperman must choose those words carefully , every one

    must be effective . Instead of “ he called out in a loud voice ” , he writes ”

    he shouted ” ; instead of “the loose stones rolled noisily down the side of the

    mountain ” , he will write ” they thundered down the mountainside ” . Because

    many of the readers are not very clever, and most of them are in a hurry. """

    def getTxt(txt): #对文本预处理(包括) txt = txt.lower()#将所有的单词全部转化成小写 for ch in

    ",,,.!、!@#$%^'”“;'’": #将所有除了单词以外的符号换成空格 txt=txt.replace(ch, ' ') return txt

    txtArr= getTxt(text).split() counts = {} for word in txtArr: counts[word] =

    counts.get(word, 0) + 1 countsList = list(counts.items()) countsList.sort(key=

    lambda x:x[1], reverse=True) for i in range(20): word, count = countsList[i]

    print('{0:<10}{1:>10}'.format(word,count))

    <>代码解说

    * 在百度找了一篇英语阅读,作为text统计词频。

    * str.lower(),将所有的单词全部转化成小写然后返回转化结果,原str不变

    * str.replace(‘a’, ‘b’),将str中的所有的a字符换成b字符并返回换后结果,原str不变

    *

    str.split(),split()不带参数默认为以所有的空字符,包括空格、换行(\n)、制表符(\t)等为分隔符分割str,并返回分割结果(list)

    * dic.get(“a”,val),在字典dic中取出键为a对应的值,如果字典中不存在键为a的键值对,则返回val

    * list.sort( key=None, reverse=False)

    key – 主要是用来进行比较的元素,只有一个参数,具体的函数的参数就是取自于可迭代对象中,指定可迭代对象中的一个元素来进行排序。

    reverse – 排序规则,reverse = True 降序, reverse = False 升序(默认)。

    文中用了lambda表达式,lambda是声明符,后面跟参数,:前面是参数,冒号后面的表达式是lambda的处理结果,这个表达式中,参数是x,处理结果是

    x[1]。sort中key参数会给后面的表达式赋值一个list中的元素。如:list为[('a':5),('b':3)],执行sort时会分别把('a':5)和

    ('b':3)赋值给key后面的lambda表达式,也就是x参数会接受到这两个值。countsList.sort(key=lambda x:x[1],

    reverse=True) #等同与 def takeSecond(elem): return elem[1] countsList.sort(key=

    takeSecond, reverse=True)

    * print在python3 中已经被函数化了,python2中可以print a,python3 中必须print(a).

    * 在python3中可以help(print), (注意,在python2中是不能help(print)的,因为其不是一个函数)

    * print('{0:<10}{1:>10}'.format(word,count))

    参数括号里第一个大括号的0表示这个大括号是给format中第一个参数word占位的,:后<号表示这一列左对齐,10表示这一列长度为10。第二个大括号里的1表示这个大括号是给format中第二个参数count占位的,:后的>表示这一列右对齐,1010表示这一列长度为10。只有单位的话,有人弄清楚可以跟我讲。。。

    <>运行结果

    * 下一个做。。。中文的分词和词云图吧,看着好像挺好玩的。

    展开全文
  • 今天捣鼓了一下午,搞出了一个词频统计的程序,敲了三四十行代码,还是十分有成就感。本着输出是为了更好的理解知识的初心,我来谈谈我是怎么写的,用的那些方法。毕竟是刚接触的小白,很有地方走了弯路,用的可能...

    最近突然对python感兴趣,就学了起来。我可怜的计算机基础只有VB,而且学的时候这门课还特别水,仅仅了解了语法,考试基本上是背题过的。

    现在自学python还是比较吃力。今天捣鼓了一下午,搞出了一个词频统计的程序,敲了三四十行代码,还是十分有成就感。本着输出是为了更好的理解知识的初心,我来谈谈我是怎么写的,用的那些方法。毕竟是刚接触的小白,很有地方走了弯路,用的可能不是很好的方法,很多理解上或许有很多偏差。 不过没关系,有大佬指出我错误的地方,我会很感激的;若有同小白的受到了启发,我会很开心的。

    先说说词频统计我是怎么想的,用到了什么方法?再谈谈我遇到的困难和展现的实际效果。最后放出我的代码

    词频统计肯定是要对字符串进行处理。将英文的单词,中文的词语给拧出来,还要统计他们出现的次数,最后再做个排序,通常是从高到低。英文进行分词不需要用到第三方库,直接使用".spite()"方法进行处理就行了。中文的分词要用到“jieba(结巴)”库,再敲一行代码就可以了。

    words = jieba.lcut(txt) #words 是分开的一个一个词的集合,txt是要分词的文本

    等等,既然我有两种分词的方式,一个是对英文的,另一个是对中文的,而且要写在一个程序里面。我需要做一个分支结构,谁知道我某天要拿中文还是英文来做词频统计呢?于是我用if else 语句做了一个简单的分支。

    print("1.英文单词词频统计。\n2.中文词语频率统计。")

    option = input("请选择要进行的词频统计类型,填数字:")

    if option == 1:

    .........

    else:

    做到这里,该想想到底该怎么进行统计。我要打开一份文件,怎么打开呢?其实也不难不过我发现英文和中文还是不一样的。请看代码。

    txt = open( s ,"r") #s表示文件所在的路径。“r”表示只读,当然还有其他模式

    txt = open( s ,"r",encoding='utf-8') #后面多了一串是为了可以对中文进行分词,英文不用写

    顺便就用一个变量 s(或者其他)作为一个输入值,这样我打包之后就可以对各种文本进行词频统计。不过我发现,这只能导入txt文件,doc,pdf不行。所以还得多一步新建一个记事本。

    怎么统计词频,当然是使用字典键值一一对应。把分好的词导入到词典里,使用遍历循环,若有相同的词,后面的值就加一,岂不妙哉?方法明晰了,实现则对于我这个小白来说有些困难。就把分好的一堆词叫做words,word表示一个词,当然还要建立一个词典使用for in语句,从words中取出每一个word,并在词典里进行判断。若word在词典里,那太好了,后面的值加一,若不在,那么新建一个索引(或者项,术语我忘记了,懒得查了),默认值为1。这样就可以进行统计了。代码如下:

    for word in words:

    if word not in cidian:

    cidian[word] = 1

    else:

    cidian[word] = cidian[word] + 1

    接下来就是排序,根据词频将单词或词语排列出来。

    为了方便先将词典转换为列表。然后列表有一个sort方法(说来惭愧,具体原理我不太清楚),可以按值的大小从小到大排(之所以这么说是因为“升序”“降序”我傻傻分不清),然后在翻转过来就可以了。代码如下:

    items = list(cidian.items()) #cidian 是词典

    items.sort(key=lambda x: x[1], reverse=True)

    最后用range函数打印出来就可以了,打印多少由你来定。代码就不放了,想看的就放在最后了。

    简单的运行了一下,发现问题还不少。比如英文中奇怪的标点符号,大小写问题等等,中文中一堆单个的词。那么就要把他们清除掉,使用replace,lower等等。做个if语句如果,中文单词只有一个那么就不要统计了,有些同义的词语可以“合并同类项”这些就是多写几个if分支的问题了。最后使用pyinstaller进行打包搞定。不过打包之后的exe文件竟然有200多m那么大,我简直懵逼了。也不清楚为啥,我也只用了jieba一个库呀。希望有大佬能够解答。不到40行的代码,却有200兆。

    我对哈佛大学幸福课的文本进行了统计,效果如下。

    效果还可以,但还可以进行优化,比如把那些连词去掉,还有“我们”“你们”等给去掉。不过也可以看出老师多次强调“自尊”“积极”“快乐”“成功”等词。

    好了,今天所有要分享的内容都在这里了,希望对python感兴趣的朋友们点个赞,留个言,共同探讨学习。

    最后附上全代码。

    print("该程序可以进行词频统计。\n请注意选择中文词语或者英文单词。")

    print("1.英文单词词频统计。\n2.中文词语频率统计。")

    # noinspection PyUnresolvedReferences

    import jieba

    cidian = {}

    k = 1

    while k > 0:

    option = input("请选择要进行的词频统计类型,填数字:")

    wenben = input("注意文件路径格式。\n例如:E:\\python学习\\03实战演练\\文本.txt\n请输入文件路径:")

    if option == 1:

    txt = open(wenben, "r").read()

    txt = txt.lower(txt)

    for n in '.,?!':

    txt = txt.replace(n," ")

    words = txt.split()

    for word in words:

    if word not in cidian:

    cidian[word] = 1

    else:

    cidian[word] = cidian[word] + 1

    else:

    txt = open(wenben, "r", encoding='utf-8').read()

    words = jieba.lcut(txt)

    for word in words:

    if len(word) == 1:

    continue

    else:

    if word not in cidian:

    cidian[word] = 1

    else:

    cidian[word] = cidian[word] + 1

    items = list(cidian.items())

    items.sort(key=lambda x: x[1], reverse=True)

    num = eval(input("你想显示前多少个最高单词/词语:"))

    for i in range(num):

    word, count = items[i]

    print("{0:<10}{1:>5}".format(word, count))

    展开全文
  • 五、可视化操作 下载gprof2dot.py将此一个PY(无需将一整个文件夹放入)放到词频统计的相同目录,在graphviz官网下载zip文件,解压,并将其bin目录添加到系统的环境变量里。 1. 性能分析:python -m cProfile -o ...

    一、程序分析

    (1)将文件读入缓冲区(dst指文本文件存放路径,设置成形参,也可以不设,具体到函数里设置)

    def process_file(dst): # 读文件到缓冲区try: # 打开文件

    txt=open(dst,"r")

    except IOErrorass:

    print sreturnNonetry: # 读文件到缓冲区

    bvffer=txt.read()

    except:

    print"Read File Error!"

    returnNone

    txt.close()return bvffer

    (2)设置缓冲区,将文本度数缓冲区,并对文本的特殊符号进行修改,使其更容易处理,并读入字典。

    def process_buffer(bvffer):ifbvffer:

    word_freq={}

    # 下面添加处理缓冲区 bvffer代码,统计每个单词的频率,存放在字典word_freq

    bvffer=bvffer.lower()for x in '~!@#$%^&*()_+/*-+\][':

    bvffer=bvffer.replace(x, " ")

    words=bvffer.strip().split()for word inwords:

    word_freq[word]=word_freq.get(word,0)+1

    return word_freq

    (3)设置输出函数,运用lambda函数对词频排序,并以“词”——“频”格式输出

    def output_result(word_freq):ifword_freq:

    sorted_word_freq= sorted(word_freq.items(), key=lambda v: v[1], reverse=True)for item in sorted_word_freq[:10]: # 输出 Top 10的单词

    print item

    (4)封装main函数,以便接下来的cProfile的性能评估

    def main():

    dst= "Gone_with_the_wind.txt"bvffer=process_file(dst)

    word_freq=process_buffer(bvffer)

    output_result(word_freq)if __name__ == "__main__":

    import cProfile

    import pstats

    cProfile.run("main()", "result")

    # 直接把分析结果打印到控制台

    p= pstats.Stats("result") # 创建Stats对象

    p.strip_dirs().sort_stats("call").print_stats() # 按照调用的次数排序

    p.strip_dirs().sort_stats("cumulative").print_stats() # 按执行时间次数排序

    p.print_callers(0.5, "process_file") # 如果想知道有哪些函数调用了process_file,小数,表示前百分之几的函数信息

    p.print_callers(0.5, "process_buffer") # 如果想知道有哪些函数调用了process_buffer

    p.print_callers(0.5, "output_result") # 如果想知道有哪些函数调用了output_res

    二、代码风格说明

    缩进

    使用4个空格进行缩进

    def process_buffer(bvffer):ifbvffer:

    word_freq= {}

    行宽

    每行代码尽量不超过80个字符

    本次编程最长一行代码(算上下划线和空格):78个字符

    sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True)

    import语句

    分行书写import语句

    import cProfile

    import pstats

    三、程序运行命令、运行结果截图

    词频统计结果截图

    1486221-20181005125528699-95489915.png

    四、性能分析结果及改进

    执行次数最多:

    1486221-20181005125802520-1963044748.png

    执行时间最多:

    1486221-20181005130010270-534948253.png

    四、性能分析结果及改进

    综合执行次数最多和时间最长,我们可以发现,字典中的get方法是所有话数里用的最多的,要想减少时间,我们可以从替换的符号入手,因为名著《飘》不是一个数学学术性的报告之类的,所以想@#¥%……&*这些之类的符号基本不可能在这本书里出现,所以在规范文本的过程中,我们可以减去对这些符号的替换修改。下面是两次时间和调用次数的前后对比图。

    for x in '!%()_/-\][':

    bvffer=bvffer.replace(x, " ")

    前:

    1486221-20181005132456707-1456128941.png

    后:

    1486221-20181005132437595-1477746963.png

    由此可见快乐大约0.016秒左右。

    五、可视化操作

    下载gprof2dot.py将此一个PY(无需将一整个文件夹放入)放到词频统计的相同目录,在graphviz官网下载zip文件,解压,并将其bin目录添加到系统的环境变量里。

    1. 性能分析:python -m cProfile -o result -s cumulative word_freq.py Gone_with_the_wind.txt;分析结果保存到 result 文件;

    2. 转换为图形;gprof2dot 将 result 转换为 dot 格式;再由 graphvix 转换为 png 图形格式。

    命令:python gprof2dot.py -f pstats result | dot -Tpng -o result.png注意:要通过cmd进去词频的py程序的目录,在其中输入代码(必须保证已经有了result文件,不然无法找到目标文件)

    1486221-20181005133604606-151164942.png

    最后结果分析如下:

    1486221-20181005133648419-251705438.png

    展开全文
  • 一.环境以及注意事项1.windows10家庭版 python 3.7.12.需要使用到的库 wordcloud(词云),jieba(中文分词库),安装过程不展示请安装到C:\Windows\Fonts 里面5....词频统计以及输出(1) 代码如下(封装为tx...

    一.环境以及注意事项

    1.windows10家庭版 python 3.7.1

    2.需要使用到的库 wordcloud(词云),jieba(中文分词库),安装过程不展示

    请安装到C:\Windows\Fonts 里面

    5.调试过程可能会出现许多小问题,请检查单词是否拼写正确,如words->word等等

    6.特别提醒:背景图片和文本需 放在和py文件同一个地方

    二.词频统计以及输出

    (1)  代码如下(封装为txt函数)

    函数作用:jieba库三种模式中的精确模式(输出的分词完整且不多余) jieba.lcut(str): 返回列表类型

    def txt(): #输出词频前N的词语

    txt = open("三国演义.txt","r").read() #打开txt文件,要和python在同一文件夹

    words = jieba.lcut(txt) #精确模式,返回一个列表

    counts = {} #创建字典

    excludes = ("将军","二人","却说","荆州","不可","不能","如此","如何",\

    "军士","左右","军马","商议","大喜") #规定要去除的没意义的词语

    for word inwords:

    if len(word) == 1: #把意义相同的词语归一

    continue

    elif word == "诸葛亮" or word == "孔明曰":

    rword = "孔明"

    elif word == '关公' or word == '云长':

    rword = '关羽'

    elif word == '玄德' or word == '玄德曰':

    rword = '刘备'

    elif word == '孟德' or word == "丞相" or word == '曹躁':

    rword = '曹操'

    else:

    rword =word

    counts[rword] = counts.get(rword,0) + 1 #字典的运用,统计词频P167

    for word in excludes: #删除之前所规定的词语

    del(counts[word])

    items = list(counts.items()) #返回所有键值对P168

    items.sort(key=lambda x:x[1], reverse =True) #降序排序

    N =eval(input("请输入N:代表输出的数字个数"))

    wordlist=list()

    for i inrange(N):

    word,count =items[i]

    print("{0:<10}{1:<5}".format(word,count)) #输出前N个词频的词语

    (2)效果图

    1623092-20190331171246031-664618679.png

    三.词频+词云

    (1)  词云代码如下 (由于是词频与词云结合,此函数不能直接当普通词云函数使用,自行做恰当修改即可)

    defcreate_word_cloud(filename):

    wl = txt() #调用函数获取strcloud_mask = np.array(Image.open("love.jpg"))#词云的背景图,需要颜色区分度高 需要把背景图片名字改成love.jpgwc =WordCloud(

    background_color = "black", #背景颜色

    mask = cloud_mask, #背景图cloud_mask

    max_words=100, #最大词语数目

    font_path = 'simsun.ttf', #调用font里的simsun.tff字体,需要提前安装

    height=1200, #设置高度

    width=1600, #设置宽度

    max_font_size=1000, #最大字体号

    random_state=1000, #设置随机生成状态,即有多少种配色方案

    )

    myword = wc.generate(wl) # 用 wl的词语 生成词云

    # 展示词云图

    plt.imshow(myword)

    plt.axis("off")

    plt.show()

    wc.to_file('1.jpg') # 把词云保存下当前目录(与此py文件目录相同)

    (2)  词频加词云结合的 完整 代码如下

    from wordcloud importWordCloud

    importmatplotlib.pyplot as plt

    importjieba

    importnumpy as np

    from PIL importImage

    def txt(): #输出词频前N的词语并且以str的形式返回

    txt = open("三国演义.txt","r").read() #打开txt文件,要和python在同一文件夹

    words = jieba.lcut(txt) #精确模式,返回一个列表

    counts = {} #创建字典

    excludes = ("将军","二人","却说","荆州","不可","不能","如此","如何",\

    "军士","左右","军马","商议","大喜") #规定要去除的没意义的词语

    for word inwords:

    if len(word) == 1: #把意义相同的词语归一

    continue

    elif word == "诸葛亮" or word == "孔明曰":

    rword = "孔明"

    elif word == '关公' or word == '云长':

    rword = '关羽'

    elif word == '玄德' or word == '玄德曰':

    rword = '刘备'

    elif word == '孟德' or word == "丞相" or word == '曹躁':

    rword = '曹操'

    else:

    rword =word

    counts[rword] = counts.get(rword,0) + 1 #字典的运用,统计词频P167

    for word in excludes: #删除之前所规定的词语

    del(counts[word])

    items = list(counts.items()) #返回所有键值对P168

    items.sort(key=lambda x:x[1], reverse =True) #降序排序

    N =eval(input("请输入N:代表输出的数字个数"))

    wordlist=list()

    for i inrange(N):

    word,count =items[i]

    print("{0:<10}{1:<5}".format(word,count)) #输出前N个词频的词语

    wordlist.append(word) #把词语word放进一个列表

    a=' '.join(wordlist) #把列表转换成str wl为str类型,所以需要转换

    returna

    defcreate_word_cloud(filename):

    wl = txt() #调用函数获取str!!

    #图片名字 需一致

    cloud_mask = np.array(Image.open("love.jpg"))#词云的背景图,需要颜色区分度高

    wc =WordCloud(

    background_color = "black", #背景颜色

    mask = cloud_mask, #背景图cloud_mask

    max_words=100, #最大词语数目

    font_path = 'simsun.ttf', #调用font里的simsun.tff字体,需要提前安装

    height=1200, #设置高度

    width=1600, #设置宽度

    max_font_size=1000, #最大字体号

    random_state=1000, #设置随机生成状态,即有多少种配色方案

    )

    myword = wc.generate(wl) # 用 wl的词语 生成词云

    # 展示词云图

    plt.imshow(myword)

    plt.axis("off")

    plt.show()

    wc.to_file('1.jpg') # 把词云保存下当前目录(与此py文件目录相同)

    if __name__ == '__main__':

    create_word_cloud('三国演义')

    (3)  效果图如下(输出词频以及词云)

    1623092-20190331172156415-1033118060.png

    展开全文
  • 原博文2018-12-06 23:02 −1、利用jieba分词,排除停用词stopword之后,对文章中的词进行词频统计,并用matplotlib进行直方图展示 # coding: utf-8 import codecs import matplotlib.pyplot as plt import jieba # ...
  • 1. 词频统计:1 importjieba2 txt = open("threekingdoms3.txt", "r", encoding=‘utf-8‘).read()3 words =jieba.lcut(txt)4 counts ={}5 for word inwords:6 if len(word) == 1:7 continue8 else:9 ...
  • importsys,rereload(sys)sys.setdefaultencoding('utf8')txt=open('blog.csdn.net.boksic.txt','r').read()wfile=open('result.txt','w')r=re.compile('[\x80-...求分析一下,是说统计两个字词频 四个字词频??? 展开
  • python中的列表很好区分,遇到中括号(即[ ]),都是列表,定义列表也是如此。列表中的数据可以进行增删查改等操作;增加有两种表达方式(append()、expend()),关于append的用法如下(注:mylis...
  • 作为字典(key-value)的经典应用题目,单词统计几乎出现在每一种语言键值对学习后的必练题目,主要需求:写一个函数wordcount统计一篇文章的每个单词出现的次数(词频统计)。统计完成后,对该统计按单词频次进行排序。...
  • 列表ls中存储了我国很多所高校所对应的学校类型,请以这个列表为数据变量,完善Python代码统计输出各类型的数量ls=["综合","理工","师范","农林","军事","综合","综合","综合","理工","理工","军事","师范","师范...
  • Python 词频统计

    2018-06-16 08:38:00
    利用Python做一个词频统计 GitHub地址:FightingBob【Give me a star , thanks.】 词频统计  对纯英语的文本文件【Eg: 瓦尔登湖(英文版).txt】的英文单词出现的次数进行统计,并记录起来 代码实现 ...
  • 今天来试一下如何利用 python统计文本中每个英文单词出现的次数 列出了两种方法,一种是直接调用 Counter 函数,核心代码一行搞定 另一种是手写的利用 python 中的字典来统计 1.首先将文本文件导入 文本是...
  • # python词频统计

    2019-05-25 23:52:11
    如何将用python程序的方法来统计文本词频统计 ####### 首先还是先给大家把代码给大家: import jieba as j txt=open("threekingdoms.txt","r",encoding="utf8").read() txts=j.lcut(txt) keywords=["却说","二人",...
  • 有没有办法一眼扫过去,就知道一篇很长的文章是讲什么的呢?词云图,就是做这个用途, 就像下面这张图,词云图看过是不是马上就有了“数据...再下载好几个扩展库(在OS下执行下面语句即可,# 及后面备注去除)pip inst...
  • Python词频统计

    2019-03-28 18:38:00
    学号:2017***7177 姓名:孙福瑞 码云地址:...要求附上每一段代码及对应的说明。 ⑴首先定义def process_file函数,将文件读到缓冲区并关闭,用open()打开文件、read()读取文件、clo...
  • python词频统计实例

    2020-07-24 17:17:02
    # 词频统计 import jieba # 分词库包 import snownlp # 情感分析 words = '非常时尚鞋子,非常非常非常时尚的一款鞋子,设计好看,设计设计做活动买的,超超超超超超超超超划算。满意。设计好看!' words_list = ...
  • 49 −文本词频统计 -- HamletHamlet下载链接:https://pan.baidu.com/s/1Is2mBAED57i6nI38lcnXAA 提取码:zqw1def getText(): txt = open("hamlet.txt","r").read() #打开文件...0383相关推荐2019-11-22 17:44 −全...
  • python词频统计_英文

    千次阅读 2020-02-12 15:43:27
    大家都在写中文的词频统计,我接触了python都有好几年了,还写英文的,真的是,就。直接贴个代码吧。 text = """ British newspapers are much smaller than they used to be and their readers are often in a ...
  • Python剑桥真题词频统计最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主...
  • 今天编的这个小程序是哈姆雷特中的词频统计,即统计哈姆雷特中各个词语出现的频率。我第一次尝试了使用自顶向下的设计方法和自下向上的执行方法。期间出现了很多错误,在此记录,以免日后再犯。编程前截取网上Hamlet...
  • 本文实例讲述了Python文本统计功能之西游记用字统计操作。分享给大家供大家参考,具体如下:一、数据xyj.txt,《西游记》的文本,2.2MB致敬吴承恩大师,4020行(段)二、目标统计《西游记》中:1. 共出现了多少个不同...
  • 恰逢某只考拉学python,俺也来玩玩 准备工作 随便来个txt文件,里面写了一些英文(中文也行),这里我们用utf-8格式 主要代码: with open("The Phantom Rider.txt", encoding='utf-8') as text: words = text.read...
  • python词频统计 生成词云

    千次阅读 2020-03-08 15:06:35
    博客简介 本篇博客介绍2个第三方库,中文分词库jeiba和词云库wordcloud,我们将完成三个例子: ...统计英文词汇频率 统计中文文本词汇频率使用jeiba库 绘制英文词云 绘制中文词云 统计英文词汇频率 ...
  • 词频统计及其效能分析仓库:https://gitee.com/aichenxi/word_frequency1 2) 程序分析,对程序中的四个函数做简要说明。要求附上每一段代码及对应的说明。 proces...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,108
精华内容 2,843
关键字:

python词频统计代码下载

python 订阅