精华内容
下载资源
问答
  • 根据词频生成词云

    2021-06-05 22:51:17
    根据词频生成词云 根据网上的教程,使用的wordcloud库的generate_from_frequencies函数 参数使用的是字典类型 结果,给我报了TypeEorror: expected string or bytes-like object 错误 一通排查,把版本从1.8.1降为...

    根据词频生成词云

    根据网上的教程,使用的wordcloud库的generate_from_frequencies函数
    参数使用的是字典类型
    结果,给我报了TypeEorror: expected string or bytes-like object 错误
    一通排查,把版本从1.8.1降为1.7.0
    最终结果出来,问题解决了
    所以,可能就是版本问题

    展开全文
  • python爬豆瓣影评&根据词频生成词云

    千次阅读 2018-05-06 10:11:50
    根据词频生成词云通过爬取豆瓣上正在上映的电影影评信息,并根据评论词频生成词云。一、需要的包import warnings # 防止出现future warning warnings.filterwarnings("ignore") from urllib import ...

    python爬豆瓣影评&根据词频生成词云

    通过爬取豆瓣上正在上映的电影影评信息,并根据评论词频生成词云。

    一、需要的包

    import warnings  # 防止出现future warning
    warnings.filterwarnings("ignore")
    from urllib import request # 用于爬取网页
    from bs4 import BeautifulSoup as bs # 用于解析网页
    import re
    import pandas as pd
    import numpy as np
    import jieba # 用于切词
    from wordcloud import WordCloud # 用于生成词云
    import matplotlib.pyplot as plt
    import matplotlib

    二、获取电影列表

    打开豆瓣上海(https://movie.douban.com/cinema/nowplaying/shanghai/),观察源代码内需要爬取内容的特征。

    1、获取nowplaying电影,并将每一个电影的内容都存在list内。

    '''get url'''
    url = 'https://movie.douban.com/nowplaying/shanghai/'
    resp = request.urlopen(url)
    html_data = resp.read().decode('utf-8') # 防止乱码
    
    soup = bs(html_data, 'html.parser') # 解析
    nowplaying = soup.find_all('div', id='nowplaying') # 网页中id为nowplaying是现在正在上映的电影。
    nowplaying_list = nowplaying[0].find_all('li', class_='list-item') # 寻找所有上映电影相关信息

    2、提取电影名称和id

    '''get movie list''' 
    movie_list = [] # 获取电影id和电影名
    for item in nowplaying_list:
        movie_dic = {}
        movie_dic['id'] = item['id']
        movie_dic['name'] = item['data-title']
        movie_list.append(movie_dic)

    当前nowplaying电影列表

    [{'id': '26683723', 'name': '后来的我们'},
     {'id': '26420932', 'name': '巴霍巴利王2:终结'},
     {'id': '26774033', 'name': '幕后玩家'},
     {'id': '26430636', 'name': '狂暴巨兽'},
     {'id': '4920389', 'name': '头号玩家'},
     {'id': '26935777', 'name': '玛丽与魔女之花'},
     {'id': '26924141', 'name': '低压槽:欲望之城'},
     {'id': '26640371', 'name': '犬之岛'},
     {'id': '25881611', 'name': '战神纪'},
     {'id': '26769474', 'name': '香港大营救'},
     {'id': '5330387', 'name': '青年马克思'},
     {'id': '26691361', 'name': '21克拉'},
     {'id': '26588783', 'name': '冰雪女王3:火与冰'},
     {'id': '30183489', 'name': '小公主艾薇拉与神秘王国'},
     {'id': '26868408', 'name': '黄金花'},
     {'id': '26942631', 'name': '起跑线'},
     {'id': '26384741', 'name': '湮灭'},
     {'id': '30187395', 'name': '午夜十二点'},
     {'id': '26647117', 'name': '暴裂无声'},
     {'id': '30152451', 'name': '厉害了,我的国'},
     {'id': '27075280', 'name': '青年马克思'},
     {'id': '26661189', 'name': '脱单告急'},
     {'id': '27077266', 'name': '米花之味'},
     {'id': '26603666', 'name': '妈妈咪鸭'},
     {'id': '26967920', 'name': '遇见你真好'},
     {'id': '30162172', 'name': '出山记'},
     {'id': '20435622', 'name': '环太平洋:雷霆再起'}]


    三、获取《后来的我们》影评

    《最好的我们》位于第一个,索引为0。根据影评地址爬取第一页20条影评,并找到评论所在位置。



    1、获取影评所在div块儿。

    '''first is 'zuihaodewomen', get comments'''
    url_comment = 'https://movie.douban.com/subject/' + movie_list[0]['id'] + '/comments?start=' + '0' + '&limit=20'
    resp = request.urlopen(url_comment)
    html_comment = resp.read().decode('utf-8')
    soup_comment = bs(html_comment, 'html.parser')
    comment_list = soup_comment.find_all('div', class_='comment')

    2、获取每个影评的内容

    '''get comment list'''
    comments = []
    for item in comment_list:
        comment = item.find_all('p')[0].string
        comments.append(comment)


    四、清洗影评

    前面步骤得到的影评为list,为了能够利用jieba包进行切词,需要将其转化为字符,并且去除所有标点。

    '''clean comments'''
    allComment = ''
    for item in comments:
        allComment = allComment + item.strip()
    
    # 至少匹配一个汉字,两个unicode值正好是Unicode表中的汉字的头和尾。
    pattern = re.compile(r'[\u4e00-\u9fa5]+')
    finalComment = ''.join(re.findall(pattern, allComment))
    
    segment = jieba.lcut(finalComment)
    words_df = pd.DataFrame({'segment': segment})

    五、去除无关字符

    利用stopwords文件(百度即可下载)去除一些无用的词组(如我,你,的.....)。

    '''remove useless words'''
    stopwords = pd.read_csv(".../chineseStopwords.txt", index_col=False, quoting=3, sep="\t",
                            names=['stopword'], encoding='GBK')
    words_df = words_df[~words_df.segment.isin(stopwords.stopword)]
    
    '''get words frequency'''
    words_fre = words_df.groupby(by='segment')['segment'].agg({'count': np.size})
    words_fre = words_fre.reset_index().sort_values(by='count', ascending=False)


    六、画出影评词云图

    '''use wordcloud'''
    matplotlib.rcParams['figure.figsize'] = [10.0, 5.0]
    wordcloud = WordCloud(font_path='simhei.ttf', background_color='white', max_font_size=80)
    word_fre_dic = {x[0]: x[1] for x in words_fre.values}
    wordcloud = wordcloud.fit_words(word_fre_dic)
    plt.imshow(wordcloud)
    plt.show()



    七、完整版代码

    import warnings  # 防止出现future warning
    warnings.filterwarnings("ignore")
    from urllib import request  # 用于爬取网页
    from bs4 import BeautifulSoup as bs  # 用于解析网页
    import re
    import pandas as pd
    import numpy as np
    import jieba  # 用于切词
    from wordcloud import WordCloud  # 用于生成词云
    import matplotlib.pyplot as plt
    import matplotlib
    
    def getMovieList(url, headers, pattern1='div', id1='nowplaying', pattern2='li', class_='list-item'):
        resp = request.urlopen(url)
        html = resp.read().decode('utf-8')
        soup = bs(html, 'html.parser')
        nowplaying = soup.find_all(pattern1, id=id1)
        nowplaying_list = nowplaying[0].find_all(pattern2, class_=class_)
        
        movie_list = []
        for item in nowplaying_list:
            movie_dic = {}
            movie_dic['id'] = item['id']
            movie_dic['name'] = item['data-title']
            movie_list.append(movie_dic)
        return movie_list
    
    def getCommentList(id2, headers, pages=10, pattern='div', class_='comment'):
        assert pages > 0
        
        all_comments = []
        for i in range(pages):
            start = (i) * 20
            url = 'https://movie.douban.com/subject/' + id2 + '/comments' +'?' +'start=' + str(start) + '&limit=20'
            resp = request.urlopen(url)
            html = resp.read().decode('utf-8')
            soup = bs(html, 'html.parser')
            comment = soup.find_all(pattern, class_=class_)
            
            comments = []
            for item in comment:
                comment = item.find_all('p')[0].string
                comments.append(comment)
            
            all_comments.append(comments)
            
        allComment = ''
        for i in range(len(all_comments)):
             allComment =  allComment + (str(all_comments[i])).strip()
    
        wordpattern = re.compile(r'[\u4e00-\u9fa5]+')
        finalComment = ''.join(re.findall(wordpattern, allComment))
        
        return finalComment
    
    def cleanComment(finalComment, path):
        segment = jieba.lcut(finalComment)
        comment = pd.DataFrame({'segment': segment})
        
        stopwords = pd.read_csv(path, quoting=3, sep='\t', names=['stopword'], encoding='GBK', index_col=False)
        comment = comment[~comment.segment.isin(stopwords.stopword)]
        
        comment_fre = comment.groupby(by='segment')['segment'].agg({'count': np.size})
        comment_fre = comment_fre.reset_index().sort_values(by='count', ascending=False)
        return comment_fre
    
    def wordcloud(comment_fre):
        matplotlib.rcParams['figure.figsize'] = [10.0, 5.0]
        wordcloud = WordCloud(font_path='simhei.ttf', background_color='white', max_font_size=80)
        comment_fre_dic = {x[0]: x[1] for x in comment_fre.head(1000).values}
        wordcloud = wordcloud.fit_words(comment_fre_dic)
        plt.imshow(wordcloud)
        plt.show
    
    def printMoveName(movie_list, id2):
        for item in movie_list:
            if item['id'] == id2:
                print(item['name'])
    
    def main(url, headers, j, pages, path):
        movie_list = getMovieList(url, headers, 'div', 'nowplaying', 'li', 'list-item')
        comment_list = getCommentList(movie_list[j]['id'], headers, pages, 'div', 'comment')
        comment_fre = cleanComment(comment_list, path)
        printMoveName(movie_list, movie_list[j]['id'])
        return wordcloud(comment_fre)
    test1:获取前十页《后来的我们》影评
    url = 'https://movie.douban.com/nowplaying/shanghai/'
    path = ".../chineseStopwords.txt"
    main(url, headers, 0, 10, path)

    test2:获取前十页《头号玩家》影评



    八、参考

    https://mp.weixin.qq.com/s/D5Q4Q6YcQDTOOlfwIytFJw

    https://www.cnblogs.com/GuoYaxiang/p/6232831.html


    展开全文
  • 第二种就是根据已知的词频进行绘制,这就正好可以符合我的需求,我可以先把部类进行计算,求每个部类出现的次数,一定要再把每个部类和次数转化为字典的键值对形式,再进行词云图的绘制。 二、代码 import pandas as...

    一、问题描述

    在这里插入图片描述
    以上数据是会员的每一笔消费,我想看部类的词云图。
    词云图有两种做法:
    第一种是针对文本的,就是一堆话,先jieba分词,然后在进行词云图的绘制;
    第二种就是根据已知的词频进行绘制,这就正好可以符合我的需求,我可以先把部类进行计算,求每个部类出现的次数,一定要再把每个部类和次数转化为字典的键值对形式,再进行词云图的绘制。

    二、代码

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    # 要先pip install wordcloud
    from wordcloud import WordCloud
    # 获得数据
    data=pd.read_excel('C:\\Users\\02180085\\Desktop\\回店会员特征\\电商数据前期消费明细.xlsx',sheet_name='元数据')
    # 求频次
    data_gr=data.groupby(by='部类',as_index=False).agg({'卡号':len})
    # print(data_gr)
    # 转化为字典形式
    dic=dict(zip(data_gr['部类'],data_gr['卡号']))
    # print(dic)
    
    #fit_word函数,接受字典类型,其他类型会报错
    wordcloud = WordCloud(font_path='simhei.ttf',background_color="white",width =4000,height= 2000,margin= 10 ).fit_words(dic)
    plt.imshow(wordcloud)
    # 显示
    plt.show()
    
    

    二、结果

    字体越大,出现的频率越高
    在这里插入图片描述
    关于词云图的参考,见以下链接,讲的很详细,特别是各个参数的设置:
    https://blog.csdn.net/moshanghuali/article/details/84667136

    展开全文
  • 词云图是根据词出现的频率生成词云,词的字体大小表现了其频率大小。 写在前面: 用wc.generate(text)直接生成词频的方法使用很多,所以不再赘述。 但是对于根据generate_from_frequencies()给定词频如何画词云...

    词云图是根据词出现的频率生成词云,词的字体大小表现了其频率大小。

     

    写在前面:

    用wc.generate(text)直接生成词频的方法使用很多,所以不再赘述。

    但是对于根据generate_from_frequencies()给定词频如何画词云图的资料找了很久,下面只讲这种方法。

    generate_from_frequencies适用于我已知词及其对应的词频是多少(已有数据库),不需要分词的情况下。

    官方文档说generate_from_frequencies函数的参数是array of tuple,但是我试了很久都不行,最后发现居然应该是dict 字典形式!

    即形如:{ word1: fre1, word2: fre2,  word3: fre3,......,  wordn: fren }

     

    注意:

    词云wordcloud的中文显示,需要特殊处理,在网上看了不少是说加字体路径之类的方法我试了都不行,最后只好采用改变编码的形式才解决好。

    fp = pd.read_csv(read_name, encoding='gbk')  # 读取词频csv文件, 编码为gbk

     

    还有,示例词云的轮廓背景图由china_map.jpg给出,如下图:

     

    一、数据文件准备

    support_institution.csv

    数据库字段分组查询数量

    select support_institution name,count(support_institution) value from nsfc GROUP BY name ORDER BY value DESC;
    

    查询结果部分截图:  

     

    导出为csv文件:support_institution.csv

     

    二、导入模块包

    可参考Windows下安装Python、matplotlib包 及相关
    https://blog.csdn.net/mikasa3/article/details/78942650 

    1、numpy

    2、pandas

    3、wordcloud

    4、matplotlib

     

    三、完整代码

    import numpy as np
    import pandas as pd
    from wordcloud import WordCloud, ImageColorGenerator
    import matplotlib.pyplot as plt
    from PIL import Image
    
    
    def draw_cloud(read_name):
        image = Image.open('china_map.jpg')  # 作为背景轮廓图
        graph = np.array(image)
        # 参数分别是指定字体、背景颜色、最大的词的大小、使用给定图作为背景形状
        wc = WordCloud(font_path='simkai.ttf', background_color='black', max_words=100, mask=graph)
        fp = pd.read_csv(read_name, encoding='gbk')  # 读取词频文件, 因为要显示中文,故编码为gbk
        name = list(fp.name)  #
        value = fp.val  # 词的频率
        for i in range(len(name)):
            name[i] = str(name[i])
        dic = dict(zip(name, value))  # 词频以字典形式存储
        wc.generate_from_frequencies(dic)  # 根据给定词频生成词云
        image_color = ImageColorGenerator(graph)
        plt.imshow(wc)
        plt.axis("off")  # 不显示坐标轴
        plt.show()
        wc.to_file('nsfc依托单位词云.png')  # 图片命名
    
    
    if __name__ == '__main__':
        draw_cloud("support_institution.csv")

     

    四、运行结果

     词云图:

     

    五、补充:WordCloud的参数详解

        WordCloud(font_path='',
                  width=400,
                  height=200,
                  margin=2,
                  ranks_only=None,
                  prefer_horizontal=0.9,
                  mask=None, scale=1,
                  color_func=None,
                  max_words=200,
                  min_font_size=4,
                  stopwords=None,
                  random_state=None,
                  background_color='black',
                  max_font_size=None,
                  font_step=1,
                  mode='RGB',
                  relative_scaling=0.5,
                  regexp=None,
                  collocations=True,
                  colormap=None,
                  normalize_plurals=True
                  )
    wordcloud参数

     

    font_path : string
    # 字体路径,需要展现什么字体就把该字体路径+后缀名写上,如:font_path = '黑体.ttf'
    
     
    width : int (default=400)
    # 输出的画布宽度,默认为400像素
    
    
    height : int (default=200)
    # 输出的画布高度,默认为200像素
    
    
    prefer_horizontal : float (default=0.90)
    # 词语水平方向排版出现的频率,默认 0.9 (所以词语垂直方向排版出现频率为 0.1 )
    
    
    mask : nd-array or None (default=None)
    # 如果参数为空,则使用二维遮罩绘制词云。如果 mask 非空,设置的宽高值将被忽略,遮罩形状被 mask 取代。除全白(#FFFFFF)的部分将不会绘制,其余部分会用于绘制词云。
    # 如:bg_pic = imread('读取一张图片.png'),背景图片的画布一定要设置为白色(#FFFFFF),然后显示的形状为不是白色的其他颜色。可以用ps工具将自己要显示的形状复制到一个纯白色的画布上再保存,就ok了。
    
    
    scale : float (default=1) 
    # 按照比例进行放大画布,如设置为1.5,则长和宽都是原来画布的1.5倍。
    
    
    min_font_size : int (default=4) 
    # 显示的最小的字体大小
    
    
    font_step : int (default=1)
    # 字体步长,如果步长大于1,会加快运算但是可能导致结果出现较大的误差。
    
    
    max_words : number (default=200)
    # 要显示的词的最大个数
    
    
    stopwords : set of strings or None
    # 设置需要屏蔽的词,如果为空,则使用内置的STOPWORDS
    
    
    background_color : color value (default=”black”)
    # 背景颜色,如background_color='white',背景颜色为白色。
    
    
    max_font_size : int or None (default=None)
    # 显示的最大的字体大小
    
    
    mode : string (default=”RGB”)
    # 当参数为“RGBA”并且background_color不为空时,背景为透明。
    
    
    relative_scaling : float (default=.5)
    # 词频和字体大小的关联性
    
    
    color_func : callable, default=None
    # 生成新颜色的函数,如果为空,则使用 self.color_func
    
    
    regexp : string or None (optional)
    # 使用正则表达式分隔输入的文本
    
    
    collocations : bool, default=True
    # 是否包括两个词的搭配
    
    
    colormap : string or matplotlib colormap, default=”viridis”
    # 给每个单词随机分配颜色,若指定color_func,则忽略该方法。
    wordcloud参数详解

     

     

    PS:以下内容可以不看,当然,看我也拦不住 ○( ^皿^)っHiahiahia…

     

    上面的中国地图显示的词云并不好看(可能因为词语过长),所以补充一个好看的作品(*^▽^*)

    2019国务院政府工作报告词云。

    文本地址:

    http://www.gov.cn/guowuyuan/baogao.htm

    全文代码:

     

    # coding:utf-8
    import jieba  # 分词
    import matplotlib.pyplot as plt  # 数据可视化
    from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS  # 词云
    import numpy as np  # 科学计算
    from PIL import Image  # 处理图片
    
    
    def draw_cloud(text, graph, save_name):
        textfile = open(text).read()  # 读取文本内容
        wordlist = jieba.cut(textfile, cut_all=False)  # 中文分词
        space_list = " ".join(wordlist)  # 连接词语
        backgroud = np.array(Image.open(graph))  # 背景轮廓图
        mywordcloud = WordCloud(background_color="white",  # 背景颜色
                                mask=backgroud,  # 写字用的背景图,从背景图取颜色
                                max_words=100,  # 最大词语数量
                                stopwords=STOPWORDS,  # 停用词
                                font_path="simkai.ttf",  # 字体
                                max_font_size=200,  # 最大字体尺寸
                                random_state=50,  # 随机角度
                                scale=2,
                                collocations=False,  # 避免重复单词
                                )
        mywordcloud = mywordcloud.generate(space_list)  # 生成词云
        ImageColorGenerator(backgroud)  # 生成词云的颜色
        plt.imsave(save_name, mywordcloud)  # 保存图片
        plt.imshow(mywordcloud)  # 显示词云
        plt.axis("off")  # 关闭保存
        plt.show()
    
    
    if __name__ == '__main__':
        draw_cloud(text="government.txt", graph="china_map.jpg", save_name='2019政府工作报告词云.png')

     

     词云图:

     

    转载于:https://www.cnblogs.com/liangmingshen/p/11312257.html

    展开全文
  • 词云图是根据词出现的频率生成词云,词的字体大小表现了其频率大小。〇、碎碎念用wc.generate(text)直接生成词频的方法使用很多,所以不再赘述。但是对于根据generate_from_frequencies()给定词频如何画词云图的资料...
  • python生成词云(附带QQ聊天记录生成词云实战) | 韦阳的博客 很多同学对词云很感兴趣,就是给一段文本,然后根据它的词频,生成出好看的词云,就像下面这张图一样: 生成这个其实很简单,python代码...
  • python 生成词云

    2020-05-29 09:06:12
    #-*- coding:utf-8 -*- from wordcloud import WordCloud import matplotlib.pyplot ...# 生成词云 def create_word_cloud(f): print('根据词频计算词云') text = " ".join(jieba.cut(f,cut_all=False, HMM=True)) .
  • 数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——作业帮 # 导入扩展库 import re # 正则表达式库 import collections # 词频统计库 import numpy as np # numpy数据处理库 import jieba # 结巴分词...
  • 数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——学霸君 # 导入扩展库 import re # 正则表达式库 import collections # 词频统计库 import numpy as np # numpy数据处理库 import jieba # 结巴分词...
  • 数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——小猿搜题 # 导入扩展库 import re # 正则表达式库 import collections # 词频统计库 import numpy as np # numpy数据处理库 import jieba # 结巴...
  • jieba 分词 + 词云图安装所需要的库导包详细代码解释定义分词函数初始化Wordcloud计算词频绘制默认颜色的词云生成与背景图片颜色的词云 安装所需要的库 我所用的是anaconda 的notebook 所以有一些库不需要格外安装...
  • 词云的作用已不必多说,也有许多不同版本生成词云的方法,但有时候调整图片细节能把人给调得脚趾头不自觉的瞉起。所以为何不直接将其封装进一个函数中,将各种绘制参数都事先准备好,尽可能一了百了呢?说干就干,看...
  • 由于工作需要,要根据现有的新闻数据统计词频,绘制词云图,比较擅长python,因此没有用可以生成云图的网页工具。由于我的数据量比较大,因此...python(wordcloud包)之生成词云(英文语料) 本文代码参考上述两个...
  • 今天做一个词云图,选取自己想要的图片进行数据输出,可以根据词频进行数据可视化输出,简单的词云图就不做特别说明了,可以参考P和Python生成一篇文章的词云
  • python词云制作

    2021-04-20 10:50:20
    一、依赖 pip install wordcloud ...3.根据词频生成词云 woc.generate_from_frequencies() 4.以文件的形式保存 woc.to_file() 三、实例 # 实例化一个词云对象 woc = wordcloud.WordCloud(background_color='w
  • 前期准备开始打开准备好的文件去掉标点符号将字符分隔开并转换为字符串形式,保存在列表中将列表内的内容大写转小写放入集合,去重把内容放进字典,统计词频统计好的词频放入元组将结果放入工作表中生成词云图成品 ...
  • 3.1 停用词,即对生成词云无用的词,比如“的”、“地”、“得”、“。”等 3.2 可以构建一个停用词文件,然后通过读取文件构建停用词表 3.3 将在停用词表中的词从词频统计线性表中删除 4.输出词频统计线性表信息...
  • 用python绘制词云

    千次阅读 2017-09-11 22:08:45
    通过jieba分词将读取的文本分成字符串,通过wordcloud生成词云根据词频来显示特色词云图片,让人更加直观的明白文本的词频最大的文字 首先,我们需要准备一个txt文本文件,以及一个png的图片当我们的背景图片,...
  • Pathon绘制词云

    2018-10-25 18:19:20
    3.根据词频的数值按比例生成一个图片的布局,类IntegralOccupancyMap 是该词云的算法所在,是词云的数据可视化方式的核心。生成词的颜色、位置、方向等 4.最后将词按对应的词频在词云布局图上生成图片,核心方法是...
  • python--词云分析

    2021-03-06 22:22:26
    isFailFlag=1),选择自己喜爱的背景图,将关键词填充进去,根据关键词词频生成中文词云图。 考察知识点: 1)扩展库jieba、numpy等的安装与使用; 2)熟练文本分词、关键词计数等技术。 代码如下: 代.
  • 文章目录绘制词云图安装 wordcloud根据词频生成直接根据文本生成 绘制词云图 安装 wordcloud !pip install wordcloud -i https://pypi.tuna.tsinghua.edu.cn/simple/ Looking in indexes: ...
  • 就是将文件输入到程序中,利用中文/英文分词,提取出文本的关键词,根据词频提取每个关键词在这面文章里的重要性权重,在指定的图片中以不重叠的形式显示出来。例如:有一个十九届五中全会公报的文本和一个目标图案...
  • # 根据传入的背景图片路径和词频字典、字体文件,生成指定名称的词云图片 def generate_word_cloud(img_bg_path, top_words_with_freq, font_path, to_save_img_path, background_color='white'): # 读取背景图形...
  • 本案例是将“京东”网某本字典的书评信息,根据词出现的次数不同,生成词云,词云图中字体的大小表示词出现的频率多少。 任务目标 1.获取书评(从文件中读取书评,删除符号,计算书评条数) 2.过滤书评(删除无效...
  • 如图:以上是抓取了30页拉勾上关于招聘安卓相关的内容 然后根据词频 制作出词云图 出现最多的词是 开发经验 整体流程总共分为2步 1.爬虫爬取相关的招聘信息 2.根据获取到的招聘信息 生成词云图 这里的爬虫采用的是...

空空如也

空空如也

1 2
收藏数 37
精华内容 14
关键字:

根据词频生成词云