精华内容
下载资源
问答
  • 统计单词词频,能够按照单词次数排列,统计英语高频词。可用于自我学习,对于想快速提升英语的可以快速把握所有高频词。打蛇打七寸,把握关键点。也可用于培训机构,针对考试高频词,快速提分,
  • get_words_frequency(cls, words_list) 获取词频 源码: class DocProcess(object): @classmethod def strip_html(cls, text): """ Delete html tags in text. text is String """ new_text = "
  • 主要介绍了Python英文文章词频统计(14份剑桥真题词频统计),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
  • 英文单词词频统计

    2016-01-08 13:42:17
    大数据背景下经常需要提取关键词热词,该程序即完成对txt格式的英文内容进行词频统计,并按词频排序生成词频统计列表,通过对单词的预处理忽略's n't 'am “”大小写等形式过滤使程序更为准确
  • python中英文词频统计

    2020-05-06 20:22:32
    python中英文词频统计 要求: 1.给定一段英文文本,实现对输入英文的分词,并统计每个单词出现的次数; 2.只用输出前十个; 分析: 1.要实现对英文单词的切分,首先就需要将英文文本按照一个特殊的格式来切分,我...

    python中英文词频统计

    要求:

    1.给定一段英文文本,实现对输入英文的分词,并统计每个单词出现的次数;
    2.只用输出前十个;

    分析:

    1.要实现对英文单词的切分,首先就需要将英文文本按照一个特殊的格式来切分,我选用的是按照空格切分,所以我们需要将文本中的” ,“ ” . “ ” !“等符号转换为空格方便切分;
    2.用Counter函数来对切分出来的单词计数;
    3. 用循环对切分出来的单词和次数进行输出;

    实现效果:

    在这里插入图片描述

    代码实现:

    from collections import Counter   #cnt = Counter()       进行计数
       #打开文件
    with open("en1.tok.txt",errors='ignore') as f: 
    #errors='ignore'用于忽略文件中的非法字符
        txt = f.read()
        txt = txt.lower()                         
         #将文本中的大写字母改写为小写字母,这样可以避免同一个单词因大小写问题统计两次
        for ch in '!"#$&()*+,-./:;<=>?@[\\]^_{|}·~‘’':
         #将文本中可能出现的字符替换为空格
            txt = txt.replace(ch, "")
        words = txt.split()                        
        #按空格分词
        cnt = Counter(words)                       
        #用Counter函数对分完的词进行计数
        for word, cnt in cnt.most_common(10):      
        #输出前十个出现次数最多的单词
            print(word, cnt)
    

    初学,欢迎大家指正我的错误!

    补充:
    1.进行了忽略非法字符操作后还需要对文本中出现的字符(逗号,感叹号等等)进行替换,不进行替换就会出现将“,” “ . ” 也当成英文字母输出的情况:
    在这里插入图片描述
    2.Counter(x).most_common(n)函数便可以用来统计词频,该函数用来表示统计x中出现次数最多的前n个元素及其次数,前十就n取10,前三就n取3,然后再循环输出就可以了。

    关于Counter函数更多的知识可以去这里看:https://www.cnblogs.com/wfc139/p/9999016.html

    展开全文
  • python实现英文词频统计

    千次阅读 2020-04-11 22:54:11
    不能有split(' ') count_dict = {} #统计每个单词的个数 for i in text: count_dict[i] = count_dict.get(i,0) + 1 #转化成列表的形式 count_dict = list(count_dict.items()) count_dict.sort(key = lambda x:x[1],...

    需要注意的地方

    1.字符串的内置函数的调用一般不改变原字符串,而列表的内置函数的调用一般会改变列表。

    trystr = 'mytry'
    print(trystr.upper())#MYTRY
    print(trystr)#mytry
    
    #要想改变原字符串应该使用如下代码
    trystr = trystr.upper()
    
    trylist = [2,6,7,1,0]
    print(trylist.sort())#None
    print(trylist)#[0, 1, 7, 6, 2]
    
    #注意如下的调用是错误的
    trylist = trylist.sort()
    

    2.要想把字典转化为列表注意是想把键、值还是键值对转化为列表。

    try_dict = {'a':1, 'b':2, 'c':3}
    
    try_list = list(try_dict.items())
    print(try_list)#[('a', 1), ('b', 2), ('c', 3)]
    
    try_list = list(try_dict.keys())
    print(try_list)#['a', 'b', 'c']
    
    try_list = list(try_dict.values())
    print(try_list)#[1, 2, 3]
    

    3.不确定索引的元素是否存在,用.get

    try_dict = {'a':1, 'b':2, 'c':3}
    print(try_dict.get('a','无'))#1
    print(try_dict.get('d','无'))#无
    

    4.对非简单的列表进行排序,要用到lambda表达式

    try_list = [[3,23,4],[11,6,8],[9,7,2]]
    #按照第一个元素的大小排序
    try_list.sort(key = lambda x:x[0])
    print(try_list)
    #[[3, 23, 4], [9, 7, 2], [11, 6, 8]]
    
    #按照第二个元素的大小排序
    try_list.sort(key = lambda x:x[1])
    print(try_list)
    #[[11, 6, 8], [9, 7, 2], [3, 23, 4]]
    
    #按照第三个元素的大小排序
    try_list.sort(key = lambda x:x[2])
    print(try_list)
    #[[9, 7, 2], [3, 23, 4], [11, 6, 8]]
    

    实现代码

    #封装获得文本的函数
    def get_text(file_name):
      with open(file_name,'r') as fr:
        text = fr.read()
        text = text.lower()#注意会有大小写之分,这里不区分大小写
        delete_ch = ['\n',':','!','?',',','.']#要删除的标点
        for ch in delete_ch:
          text = text.replace(ch,' ')
      return text
    
    file_name = 'hamlet.txt'#要处理的文件
    text = get_text(file_name)
    text = text.split()#注意!不能有split(' ')
    count_dict = {}
    #统计每个单词的个数
    for i in text:
      count_dict[i] = count_dict.get(i,0) + 1
    #转化成列表的形式
    count_dict = list(count_dict.items())
    count_dict.sort(key = lambda x:x[1], reverse = True)
    
    for i in range(10):
      word,count = count_dict[i]
      print(word,count)
    
    展开全文
  • 使用Python进行英文词频统计

    万次阅读 多人点赞 2019-03-11 16:54:42
    对一篇英文文章进行词频统计重点在于内容去噪和归一化,可用split()进行分词。本文以《飘》为例,统计词频最高的前十位。 1.读取文件,通过lower()、replace()函数将所有单词统一为小写,并用空格替换特殊字符。 ...

    对一篇英文文章进行词频统计重点在于内容去噪和归一化,可用split()进行分词。本文以《飘》为例,统计词频最高的前十位。

    1.读取文件,通过lower()、replace()函数将所有单词统一为小写,并用空格替换特殊字符。

    def gettext():
        txt = open("piao.txt","r",errors='ignore').read()
        txt = txt.lower()
        for ch in '!"#$&()*+,-./:;<=>?@[\\]^_{|}·~‘’':
            txt = txt.replace(ch,"")
    return txt
    

    2.对处理后的文本进行词频统计存入字典。

    txt = gettext()
    words = txt.split()
    counts = {}
    for word in words:
        counts[word] = counts.get(word,0) + 1
    

    3.统计结果存为列表类型,按词频由高到低进行排序,输出前十位。

    items = list(counts.items())
    items.sort(key=lambda x:x[1],reverse=True)
    for i in range(10):
        word,count = items[i]
        print("{0:<10}{1:>5}".format(word,count))
    

    输入:

    在这里插入图片描述

    输出:

    在这里插入图片描述

    展开全文
  • 今天来试一下如何利用 python统计文本中每个英文单词出现的次数列出了两种方法,一种是直接调用 Counter 函数,核心代码一行搞定另一种是手写的利用 python 中的字典来统计1.首先将文本文件导入文本是长这样子的 ...

    今天来试一下如何利用 python 来统计文本中每个英文单词出现的次数

    列出了两种方法,一种是直接调用 Counter 函数,核心代码一行搞定

    另一种是手写的利用 python 中的字典来统计

    1.首先将文本文件导入

    文本是长这样子的

    424bdf8f583ab2af2863873228576502.png

    f = open(r"C:\Users\aaa\Desktop\new.txt",encoding="utf-8")

    a = f.read().split()

    open 文本之后,将文本 read 进来,然后用 split 将单词利用空格切分开

    输出的是一个列表,也就是将文本文件变成单词的列表

    ebc5fa9e30a67bdeb88aef17a80abae0.png

    2. 利用 Counter 函数统计词频

    这个方法很简单,只需要用一行代码即可搞定

    print(collections.Counter(a))

    这样就直接统计好词频,并利用字典的形式排序好了再输出

    0f28d9bfda4b9ae45881e7f44b05f61a.png

    当然,Counter函数在collections 包里,所以使用之前要先导包:import collections

    3.手写字典统计词频

    如果你觉得直接调用函数没有意思的话,可以自己手写字典来统计:key 是单词,value 是单词出现次数

    先创建一个字典,然后遍历刚刚取出的单词列表,接着做一个判断:

    如果字典中 key 已经出现了这个单词,那么它对应的 value ,也就是出现次数就 +1

    如果这个单词没出现过,就直接 插入这个单词及 value 为 1 到 字典中

    代码如下:

    words_dic = {}

    for k in a:

    if k in words_dic:

    words_dic[k] += 1

    else:

    words_dic[k] = 1

    print(words_dic)

    统计结果:

    a740d983c9d9d3483766024eb4e5feb7.png

    4.完整代码

    import collections

    f = open(r"C:\Users\aaa\Desktop\new.txt",encoding="utf-8")

    a = f.read().split()

    print(a)

    print(collections.Counter(a))

    words_dic = {}

    for k in a:

    if k in words_dic:

    words_dic[k] += 1

    else:

    words_dic[k] = 1

    print(words_dic)

    f.close()

    展开全文
  • 使用Python+NLTK实现英文单词词频统计

    千次阅读 2017-07-14 10:51:16
    使用Python+NLTK实现英文单词词频统计   使用PythonNLTK实现英文单词词频统计 应用场景 Fork Me 参考运行环境 流程步骤图 详细步骤 读取文件 过滤特殊符号以及还原常见缩写单词 分词 词形...
  • python简单词频统计

    2020-11-25 19:52:32
    词频统计简单英语词频统计# 词频:单词出现的次数f = open(r'D:\上海Python11期视频\预科班\hamlet.txt','r',encoding='utf8')data = f.read().lower()# print(data)data_split = data.split(' ')# print(data_split)...
  • 本文实例讲述了Python实现统计英文文章词频的方法。分享给大家供大家参考,具体如下:应用介绍:统计英文文章词频是很常见的需求,本文利用python实现。思路分析:1、把英文文章的每个单词放到列表里,并统计列表...
  • 之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类问题上。故在此做个简单的记录。统计的材料如下:document = ['look', 'into', 'my', 'eyes', 'look', 'into本文实例讲述...
  • 1.读取数据 txt='''(8312+) WINDOW CLAMP ( W76.3 ) (8312+) WINDOW CLAMP ( W78) (8312+) WINDOW CLAMP (DFN5X6 W100) (8312+) WINDOW CLAMP (DFN5X6 W100)2-COL (8312+) WINDOW CLAMP (PCB 63X55.7) ...
  • python词频统计并按词频排序

    千次阅读 2021-11-07 16:00:37
    python词频统计 这篇博客用来记录一下自己学习用python词频统计的过程 #一、英文词频统计,所用文本《THE CATCHER IN THE RYE 》(麦田里的守望者) 涉及的第三方库及其在程序中的用途如下: import string #去除...
  • 基于Qt框架的Pyside2,使用Python语言进行开发了一个英语词频统计软件。完成了对英语本文的词频统计功能,可直接对一段文本进行粘贴统计,也可以对指定文件夹下(包括其下的子目录)的所有txt文件进行分析,界面可...
  • (有一些是安装好python电脑自带有哦)有一些会出现一种情况就是安装不了词云展示库有下面解决方法,需看请复制链接查看:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud第三步:1.准备好你打算统计的文件...
  • Python词频统计

    2020-11-25 06:37:46
    英文文本词频统计统计英文词频分为两步:文本去噪及归一化使用字典表达词频代码:#CalHamletV1.pydef getText():txt = open("hamlet.txt", "r").read()txt = txt.lower()for ch in '!"#$%&()*+,-./:;?@[\\]^_‘{|}~'...
  • 在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了:1. 下面是英文文本的词频统计,统计了作者的一篇英文论文#文本词频统计:英文文本def gettext():#从文件中获取文本text = open("target...
  • python统计历年考研英语真题词频

    千次阅读 多人点赞 2018-08-24 11:29:15
    1.准备工作 86_17_1.txt ————1986年到2017年考研英语一真题txt文件 86_17_2.txt ————1986年到2017年考研英语二真题txt文件 86_17_1_2.txt ————1986年到...2.词频统计及保存结果 #!/usr/bin/pyth...
  • python实现词频统计并展示

    千次阅读 2020-07-07 09:24:44
    一篇文章如何可以快速锁定核心内容,可以初步用文章中出现频次最高的词语作为文章的核心。...pip install collections # 词频统计库 pip install numpy # numpy数据处理库 pip install jieba # 结巴分词 pip instal
  • Python——词频统计(英文+中文)

    千次阅读 2019-07-24 14:13:35
    英文的词频统计: 这里需要把《哈莫雷特》中出现的次数最多的单词(前十)打印出来 在英文中,不同的单词都是有明显的分隔的,有的是以空格分隔,有的是以逗号分隔...... 这里我们需要把不同的单词分隔出来,...
  • 1、统计英文单词,# 1.准备utf-8编码的文本文件file(已在文件夹中定义了 一个名叫“head.txt.rtf”文本文件,详情请见截图)def getTxt(): #3对文本预处理(包括)txt = open('head.txt.rtf').read() #2.通过文件读取...
  • 单词统计(Python)

    2017-03-09 00:08:46
    统计一篇英语文章txt中词频,GUI显示
  • 今天,我们利用python编写一个MapReduce程序,程序的目的还是百年不变的计算单词个数,也就是WordCunt。所谓mapreduce其实就是先分散计算后综合处理计算结果。首先我们来看一下map部分的代码。#!/usr/bin/env python...
  • python词频统计_英文

    2020-11-23 04:35:55
    python词频统计_英文2020-08-15 05:22阅读数 22代码大家都在写中文的词频统计,我接触了python都有好几年了,还写英文的,真的是,就。直接贴个代码吧。text = """ British newspapers are much smaller than they ...
  • python 文本单词提取和词频统计

    万次阅读 2016-02-18 17:12:04
    strip_html(cls, text) 去除html标签 separate_words(cls, text, min_lenth=3) 文本提取 get_words_frequency(cls, words_list) 获取词频class DocProcess(object): @classmethod def strip_html(cls, text): "

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 881
精华内容 352
关键字:

python英语单词词频统计

python 订阅