精华内容
下载资源
问答
  • 词云图

    2021-03-10 16:34:36
    词云图 词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。 接下来我们讲教您怎么绘制这样NB的词云...

    词云图

    词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。

    接下来我们讲教您怎么绘制这样NB的词云图

    1、模块的安装

    pip install chardet
    pip install jieba
    pip install PIL
    pip install wordcloud
    

    2、模块的导入

    import chardet
    import jieba
    import numpy as np
    from PIL import Image
    import os
    from os import path
    from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator
    from matplotlib import pyplot as plt
    from matplotlib.pyplot import figure, show, rc
    

    3、词云图的绘制

    • English-白色背景的方形词云图
    text = open("WordCloud.txt",encoding="gb18030").read()
    wc = WordCloud(
        font_path=None,
        width=400, # 默认宽度
        height=200, # 默认高度
        margin=2, # 边缘
        ranks_only=None, 
        prefer_horizontal=0.9, # 词在水平方向上出现的频率
        mask=None, # 指定背景图,会将单词填充在背景图像素非白色(#FFFFFF RGB(255,255,255))的地方
        scale=2, # 缩放比例 对图像整体进行缩放 默认为1
        color_func=None, # 生成新颜色的函数 如果为空 则使用 self.color_func
        min_font_size=4, # 最小字号
        stopwords=None, # 停止词设置,修正词云图时需要设置
        random_state=None, # 为每个单词返回一个PIL颜色
        background_color='white', # 背景颜色设置,可以为具体的颜色
        max_font_size=None, # 最大字号
        font_step=1, # 字体步幅 控制在给定text遍历单词的步幅 默认为1 一般不用修改 对于较大text 增大font_step会加快读取速度 但会牺牲部分准确性
        mode='RGB', # 设置显色模式 默认RGB 如果为RGBA且background_color不为空时,背景为透明
        relative_scaling='auto', # 词频与字体大小关联性 默认为5 值越小 变化越明显
        regexp=None, # 默认单词是以空格分割,如果设置这个参数 将根据指定函数来分割
        collocations=True, # 是否包含两个词的搭配 默认为True
        colormap='Reds', # matplotlib颜色主题,可更改名称,进而更改整体风格
        normalize_plurals=True, # 
        contour_width=0,
        contour_color='black',
        repeat=False)
    wc.generate_from_text(text)
    fig = figure(figsize=(4,4),dpi=300)
    plt.imshow(wc,interpolation='bilinear')
    plt.axis('off')
    plt.tight_layout()
    plt.show()
    
    • 中文-黑色背景的圆形词云图
    text = open('WordCloud_Chinese.txt',encoding='GB2312',errors='ignore').read()
    
    # 获取文本词排序,可调整 stopwords
    process_word = WordCloud.process_text(wc,text)
    sort = sorted(process_word.items(),key=lambda e:e[1],reverse=True)
    #print(sort[:50]) # # 获取文本词频最高的前50个词
    
    text+=' '.join(jieba.cut(text,cut_all=False)) # cut_all=False 表示采用精确模式
    #设置中文字体
    font_path = 'SourceHanSansCN-Regular.otf'  # 思源黑体
    # 读取背景图片
    background_Image = np.array(Image.open("WordCloud_Image.jpg"))
    # 提取背景图片颜色
    img_colors = ImageColorGenerator(background_Image)
    # 设置中文停止词
    stopwords = set('')
    
    stopwords.update(['但是','一个','自己','因此','没有','很多','可以','这个','虽然','因为','这样','已经','现在','一些','比如','不是','当然','可能','如果','就是','同时','比如','这些','必须','由于','而且','并且','他们'])
    wc = WordCloud(
        font_path = font_path, # 中文需设置路径
         #width=400, # 默认宽度
         #height=400, # 默认高度
        margin = 2, # 页面边缘
        mask = background_Image,
        scale = 2,
        max_words = 200, # 最多词个数
        min_font_size = 4, #
        stopwords = stopwords,
        random_state = 42,
        background_color = 'black', # 背景颜色
        colormap='RdYlGn_r', # matplotlib 色图,可更改名称进而更改整体风格
        max_font_size = 100,
        )
    wc.generate(text)
    # 获取文本词排序,可调整 stopwords
    process_word = WordCloud.process_text(wc,text)
    sort = sorted(process_word.items(),key=lambda e:e[1],reverse=True)
    #print(sort[:50]) # 获取文本词频最高的前50个词
    # 设置为背景色,若不想要背景图片颜色,就注释掉
    #wc.recolor(color_func=img_colors)
    #存储图像
    #wc.to_file('浪潮之巅basic.png')
    #显示图像
    fig = figure(figsize=(4,4),dpi =100)  
    plt.imshow(wc,interpolation='bilinear')
    plt.axis('off')
    plt.tight_layout()
    #fig.savefig("词云图2.pdf")
    plt.show()   
    
    相关的示例数据下载地址

    链接: https://pan.baidu.com/s/1bj8EaGzXLhLVCuYe3taBXQ
    提取码: dbrc

    展开全文
  • 事情发生在5月28日晚上十一点二十八分,学姐找到计算机专业的我,问我会不会使用Python做个词云图,本已眼皮打架的我正打算去睡觉了????,正打算推辞明个在帮忙写,可是学姐说她明天就要交作业了,还发出/可怜/可怜...

    真实事件发生在我身上!注意这不是演习!!

    事情经过(心塞历程)
    在这里插入图片描述

    事情发生在5月28日晚上十一点二十八分,学姐找到计算机专业的我,问我会不会使用Python做个词云图,本已眼皮打架的我正打算去睡觉了😴,正打算推辞明个在帮忙写,可是学姐说她明天就要交作业了,还发出/可怜/可怜的表情😳,这让我怎么招架的住!!
    淦!学姐都这样说了,怎么还能推辞呢??今晚熬夜也要冲到底啊!!!
    直接看图!!!!

    在这里插入图片描述

    于是乎,我开始了用Python做词云图的历程:

    Python制作词云图

    需要用到四个工具包jieba,wordcloud,imageio,matplotlib.

    安装四个模板

    1.安装jieba模块

    pip install jieba

    在这里插入图片描述

    2.安装wordcloud模块

    pip insatll wordcloud

    在这里插入图片描述

    3.安装imageio模板

    pip insatll imageio

    这里是已经安装好了,安装过程没来及的截图,就发下载后的样式吧。
    在这里插入图片描述

    4.安装matplotlib模板

    pip install matplotlib

    同上展示下载后的样式
    在这里插入图片描述

    准备词

    我用学姐发给我的论文作为文本。

    准备需要用到的效果图底图

    我知道学姐喜欢吃苹果,我就去网上找个苹果的图用来做效果图(真的是用心良苦啊啊啊啊~~😭),注意苹果的背景图是白色,将非白色的区域填充词语!如图:

    在这里插入图片描述

    准备字体(TTF文件)

    网上很多资源,我就在网上随便找了个,TTF下载地址
    需要的可以自行下载。
    在这里插入图片描述

    上代码!!!

    # coding: utf-8
    import jieba
    from wordcloud import WordCloud
    from imageio import imread # 处理图像的函数
    import matplotlib.pyplot as plt
    
    # 读取文本文件
    path = "D:/Study/code/wc/word.txt" # 存储文本路径位置
    text = open(path, 'r', encoding="utf-8").read()
    # 使用jieba库对文本进行分词
    cut_text = ''.join(jieba.cut(text))
    # 读取图片
    color_mask = imread('D:/Study/code/wc/Apple.png')
    # 生成词云
    cloud = WordCloud(font_path='D:/Study/code/wc/HanYiYanKaiW.ttf',#字体文件路径
             background_color="white",#这里将白色设定为背景色,即非白色区域将填充词
             mask=color_mask,
             max_words=1000,#最大词语数
             max_font_size=60)#最大词的大小
    word_cloud = cloud.generate(cut_text)
    
    # 输出图片
    plt.axis('off')
    plt.imshow(word_cloud)
    plt.show()
    

    我们来看下效果:
    在这里插入图片描述

    熬夜做完了,我将效果图发给学姐

    在这里插入图片描述
    期待着学姐明天起来给我惊喜!!!

    第二天
    在这里插入图片描述

    啊啊啊啊啊啊!!!!!!!
    在这里插入图片描述

    我当时直接整懵逼了!!我辛辛苦苦熬夜写完还期待着学姐会奖励我什么😍
    没想到啊,千算万算没算到我好兄弟这一操作😰换谁不好为什么是老王!!

    工具人实锤啊我!!!

    这让我想到一句话:
    当你在崩溃的边缘时,伸出一只手,给你一丝希望。不管过去多么快乐,多么艰辛,多么痛苦,挺过去,总会有变好的那一天。每个人都有自己要走的路,上天早已安排好,不论擦肩而过还是偶尔陪伴或是长相厮守,到头来,都只是生命中的一个过客。
    我或许就是那个过客吧。



    ------------------------------------- END ------------------------------------------

    展开全文
  • 词云图是将词汇按照频率的高低显示不同大小而形成的图,可以一目了然地看出关键词。下面是词云图的python代码~#导入需要模块import jiebaimport numpy as npimport matplotlib.pyplot as pltfrom PIL import Image...

    词云图是将词汇按照频率的高低显示不同大小而形成的图,可以一目了然地看出关键词。下面是词云图的python代码~

    #导入需要模块

    import jieba

    import numpy as np

    import matplotlib.pyplot as plt

    from PIL import Image

    from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

    text_road=str(input('请输入文章的路径:'))

    picture_road=str(input('请输入图片的路径:'))

    #加载需要分析的文章

    text = open(text_road,'r',encoding='utf-8').read()

    #对文章进行分词

    wordlist_after_jieba = jieba.cut(text, cut_all=False)

    wl_space_split = " ".join(wordlist_after_jieba)

    #读取照片通过numpy.array函数将照片等结构数据转化为np-array

    mask=np.array(Image.open(picture_road))

    #选择屏蔽词,不显示在词云里面

    stopwords = set(STOPWORDS)

    #可以加多个屏蔽词

    stopwords.add("
    ")

    #创建词云对象

    wc = WordCloud(

    background_color="white",

    font_path='/Library/Fonts/Arial Unicode.ttf',

    max_words=1000, # 最多显示词数

    mask=mask,

    stopwords=stopwords,

    max_font_size=100 # 字体最大值

    )

    #生成词云

    wc.generate(text)

    #从背景图建立颜色方案

    image_colors =ImageColorGenerator(mask)

    #将词云颜色设置为背景图方案

    wc.recolor(color_func=image_colors)

    #显示词云

    plt.imshow(wc,interpolation='bilinear')

    #关闭坐标轴

    plt.axis("off")

    #显示图像

    plt.show()

    #保存词云

    wc.to_file('词云图.png')

    下面这张图是我爬了阿里巴巴招聘网站上所有数据分析职位需求,生成的词云图,大家可以看看阿里对数据分析师的要求~

    20199995822579.png?20198995915

    以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

    展开全文
  • 网站简介:图悦是一个支持在线生成个性化词云图片的工具,支持制作词云、关键词云图、词云图、词频分析等,图悦自动将文章长文本进行分词,并默认生成圆形词云图,是不是很漂亮呢,还可以变换为椭圆形的微信模式。...

    网站简介:

    图悦是一个支持在线生成个性化词云图片的工具,支持制作词云、关键词云图、词云图、词频分析等,图悦自动将文章长文本进行分词,并默认生成圆形词云图,是不是很漂亮呢,还可以变换为椭圆形的微信模式。

    84255c298dd45911f861a0e4e605c478.png

    图悦功能:

    1.待分析长文本或URL热词权重图

    在左侧文本框内输入文章的文字内容或者文章原地址,点击右上角"分析出图",默认输出图形为热词权重图。

    2.待分析长文本或URL热词词频图

    图悦的另一种可视化模式是"热词词频图",制作的步骤不变,左侧文本框输入文本或url,分析出图后,再点击"热词词频图",将获得长文本的词频。如果你还想进一步分析,可以点击"导出excel",导出词频具体分析。

    热词分析工具指标说明:

    TF,热词词频指标

    TF指标是一个词在文章中出现次数,出现的次数越多一般越重要,输出的词频信息只是参考,目前采用的分词方法是大词优先,不是以小词优先的,比如"改革"和"改革开放"都是词,在统计词频时,"改革开放"中的"改革"不会计入"改革"的词频,算两个不同的词,输出的图有"热词词频图"、"词频柱状图",图形模式可自选。

    Score,热词权重指标

    1、Score指标是指一个词在文章中重要性,主要由TF热词词频,IDF倒转文档频率,other其它三个指标决定,输出的图有热词权重图,图形模式可自选。

    2、IDF,"倒转文档频率",表示词的区分能力,区分能力越差的词其主题代表性越弱,比如各种常用词如"如果";词在文章中的位置因素;

    3、Other,词在文章中与其他词的语义聚合程度等。

    性能及数据说明:

    1、导出的EXCEL默认按Score热词权重Z-A排序,是TOP150位的词。若要看词频用户可以EXCEL中自己按热词词频Z-A排序。

    2、多个文本数据比对:分别导出的EXCEL排序后再人工比对。

    3、输入文本格式:文本长度支持100万汉字。格式为纯文本,你可以从网页中、WORD中等地选择你要分析的文本COPY到文本框。

    这款国内的词云工具,虽然在导出excel词频、定制图形等方面仍有不足,但在长文本自动分词并制作词云方面还是很出众的。

    展开全文
  • 使用现有的txt文本和图片,就可以用wordcloud包生成词云图。大致步骤是:1、读取txt文本并简单处理;2、读取图片,以用作背景;3、生成词云对象,保存为文件。需要用到3个库:jieba(用于分割文本为词语)、imageio...
  • 因为笔者试用了python版和c#版生成的词云图,觉得C#版自动生成的词云图颜色更好看,本来想参考c#版修改python版里的颜色缺省方案,无奈,对C#和python都是小白,暂时作罢,还是直接使用现有。 词云图C#版...
  • Python文本挖掘:词云图

    万次阅读 多人点赞 2017-08-15 03:51:23
    一、什么叫词云图词云图又叫文字云,是对文本数据中出现频率较高的关键词予以视觉上的突出,形成"关键词的渲染"就类似云一样的彩色图片,从而过滤掉大量的文本信息,,使人一眼就可以领略文本数据的主要表达意思。...
  • 一、什么是词云图词云图是一种用来展现高频关键词的可视化表达,通过文字、色彩、图形的搭配,产生有冲击力地视觉效果,而且能够传达有价值的信息。制作词云图的网站有很多,简单方便,适合小批量操作。BI软件如...
  • 注意: 本代码词云图 需要准备 词语内容保存text文件 一个png格式的图片 整体思路: 首先获取需要分析词语的内容保存到一个文件, 然后读取文件. 然后打开一个已有的png图片(其实额可以穿件一个的, 这个...
  • 首先贴出一张词云图(以哈利波特小说为例):在生成词云图之前,首先要做一些准备工作1.安装结巴分词库pip install jiebaPython中的分词模块有很多,他们的功能也都是大同小异,我们安装的结巴分词 是当前使用的最多...
  • 前期准备上面的这种图叫做词云图,主要用途是将文本数据中出现频率较高的关键词以可视化的形式展现出来,使人一眼就可以领略文本数据的主要表达意思。词云图中,词的大小代表了其词频,越大的字代表其出现频率更高。...
  • Echarts词云图的使用&Echarts词云图为指定词设置超链接(跳转) 对于echarts词云图使用详细讲解,以及实现echarts词云图词条的点击跳转 前言 最近在做一个项目,了解到echarts统计图标等功能的强大和美观,并且...
  • 制作词云图

    千次阅读 2019-02-22 15:48:00
    目前,词云图的生成方法有很多,个人认为,最常用也最好用的当属BlueMC词云工具。 (1)可以使用wordart生成词云图;wordart的网址为:www.wordart.com 进入官网之后,点击Creat就可以制作词云图了,词云图制作...
  • 1. 明确任务最近学习过程中看到很多分析报告中都有运用到可视化的词云,也有看到五花八门的工具教程,刚好有一份《都挺好》电视剧的弹幕源数据。... 使用wordcloud 将分词得到的词汇统计绘制词云图涉及难点...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,466
精华内容 6,586
关键字:

词云图