精华内容
下载资源
问答
  • bilibili弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化 **** **主要依赖库** > selenium > pandas > lxml > json > requests > pyecharts > jieba > snownlp > wordcloud ...
  • 主要介绍了基于Python词云分析政府工作报告关键词,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
  • 个人自主研制爬虫策略,成功绕过阿里云反爬机制,天猫、淘宝都不在话下!外增词云图绘制代码,带你爬虫、带你数据分析、带你飞!
  • 爬取微博近期话题热搜,制作词云展示效果图
  • 这是《Python数据挖掘课程》系列文章,前面很多文章都讲解了分类、聚类算法,而这篇文章主要讲解如何调用SnowNLP库实现情感分析,处理的对象是豆瓣《肖申克救赎》的评论文本。文章比较基础,希望对你有所帮助,提供...
  • 词云分析

    千次阅读 2019-02-20 10:57:15
    使用模块: jieba(结巴):切割中文的模块; wordcloud: pillow: python3中专门用来...实现处理英文的词云比较简单 # 1. 切割和处理英文字符, data = [] with open('/tmp/passwd') as f: for line in f: result1 = ...

    使用模块:

    jieba(结巴):切割中文的模块;
    wordcloud:
    pillow: python3中专门用来处理图像的模块;
    numpy:
    matplotlib:

    1. 处理英文

    实现处理英文的词云比较简单

    # 1. 切割和处理英文字符,
    data = []
    with open('/tmp/passwd') as f:
       for line in f:
           result1 = re.split(r'\s|:|/', line)
           # 如果item存在数据并且不是空格或者数字, 则继续进行处理;
           result2 = [item for item in result1 if not re.findall(r'\s+|\d+', item) and item]
           # print(result2)
           data.extend(result2)
    
    
    # 2). 打开图片, 获取图片的数据信息;
    imgObj = Image.open('./doc/wordcloud.jpg')
    img_mask = np.array(imgObj)
    # print(img_mask)
    #
    # 3). 创建词云对象, 设置属性
    wcObj = wordcloud.WordCloud(
       mask = img_mask,
       background_color="snow",
       min_font_size=5,
       max_font_size=50,
       width=1000,
       height=1000,
       )
    # 4). 生成图片;
    # 词云绘制时, 默认之处理字符串类型, 怎么分隔每个单词? 必须以逗号分隔符分割
    wcObj.generate(",".join(data))
    wcObj.to_file('doc/wcObj.png')
    

    在这里插入图片描述

    处理中文

    import re
    import jieba
    from PIL import Image
    from wordcloud import wordcloud
    import numpy as np
    
    def gen_wordcloud(text, filename):
    
    
       # 1). 强调分割中有问题的词;
       jieba.suggest_freq(('微博'), True)
       jieba.suggest_freq(('热搜'), True)
    
       #  2). 难点: 如何切割中文, jieba, lcut
       result = jieba.lcut(text)
      # print(result)
    
       # 绘制词云
       # 3). 打开图片, 获取图片的数据信息;
       imgObj = Image.open('./doc/wordcloud.jpg')
       img_mask = np.array(imgObj)
       # print(img_mask)
       # 4). 创建词云对象, 设置属性
       wcObj = wordcloud.WordCloud(
           mask = img_mask,   # 数据如何填充到图片
           background_color="snow",  # 北京颜色
           font_path="/usr/share/fonts/wqy-zenhei/wqy-zenhei.ttc",  # 如果是中文, 指定字体库(fc-list :lang=zh)
           min_font_size=5,  # 图片中最小的字体大小
           max_font_size=50,   # 图片中最小的字体大小
           width=1000,  # 图片宽度
           height=1000, # 高
           )
       # 5). 生成图片;
       # 词云绘制时, 默认之处理字符串类型, 怎么分隔每个单词? 必须以逗号分隔符分割
       wcObj.generate(",".join(result))
       wcObj.to_file(filename)
    
    
    if __name__ == '__main__':
       text = "马云曾公开表态称对钱没兴趣称其从来没碰过钱上了微博热搜"
       filename = 'doc/wcObj.png'
       gen_wordcloud(text, filename)
    
    展开全文
  • 词云分析——基于Python对天猫商品评论进行词云分析 文章目录词云分析——基于Python对天猫商品评论进行词云分析0 引言1 准备工作2 主程序3 分析与改进4 可能出现的报错及解决方案 0 引言 什么是词云分析? 词云图,...

    0 引言

    什么是词云分析?
    词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。

    1 准备工作

    前段时间学习了爬虫技术,并自己尝试着对一些信息进行爬取。完成了一个对天猫商品评论的爬虫项目,并将爬取到的评论存到了Excel表格中,如下图所示。
    在这里插入图片描述
    爬取的是天猫商城元气森林气泡水的评论,将评论内容、评论时间以及购买商品的类型全部存下来了,共计800条。现在想要对这800条评论的内容进行词云分析。
    将A列全选,复制粘贴到新建的txt文件中。
    在这里插入图片描述

    词云分析需要一个背景图,文字分布在该图片在图层上存在的部分,不存在的部分则不分布文字。所以这时候需要用到PS。
    在这里插入图片描述
    使用PS中的快速选择工具,选中不需要的部分(或者选中我们需要的部分,然后点反向选择)点击删除,储存为PNG格式,缩略图如下所示,可以看到背景色已经被P掉了。
    在这里插入图片描述

    2 主程序

    这个程序主要用到了wordcloud库中的WordCloud包和ImageColorGenerator包。
    经过查阅资料,WordCloud中所有参数与意义如下:

    font_path : string //字体路径,需要展现什么字体就把该字体路径+后缀名写上,如:font_path = '黑体.ttf'
    width : int (default=400) //输出的画布宽度,默认为400像素
    height : int (default=200) //输出的画布高度,默认为200像素
    prefer_horizontal : float (default=0.90) //词语水平方向排版出现的频率,默认 0.9 (所以词语垂直方向排版出现频率为 0.1 )
    mask : nd-array or None (default=None) //如果参数为空,则使用二维遮罩绘制词云。如果 mask 非空,设置的宽高值将被忽略,遮罩形状被 mask 取代。除全白(#FFFFFF)的部分将不会绘制,其余部分会用于绘制词云。如:bg_pic = imread('读取一张图片.png'),背景图片的画布一定要设置为白色(#FFFFFF),然后显示的形状为不是白色的其他颜色。可以用ps工具将自己要显示的形状复制到一个纯白色的画布上再保存,就ok了。
    scale : float (default=1) //按照比例进行放大画布,如设置为1.5,则长和宽都是原来画布的1.5倍。
    min_font_size : int (default=4) //显示的最小的字体大小
    font_step : int (default=1) //字体步长,如果步长大于1,会加快运算但是可能导致结果出现较大的误差。
    max_words : number (default=200) //要显示的词的最大个数
    stopwords : set of strings or None //设置需要屏蔽的词,如果为空,则使用内置的STOPWORDS
    background_color : color value (default=”black”) //背景颜色,如background_color='white',背景颜色为白色。
    max_font_size : int or None (default=None) //显示的最大的字体大小
    mode : string (default=”RGB”) //当参数为“RGBA”并且background_color不为空时,背景为透明。
    relative_scaling : float (default=.5) //词频和字体大小的关联性
    color_func : callable, default=None //生成新颜色的函数,如果为空,则使用 self.color_func
    regexp : string or None (optional) //使用正则表达式分隔输入的文本
    collocations : bool, default=True //是否包括两个词的搭配
    colormap : string or matplotlib colormap, default=”viridis” //给每个单词随机分配颜色,若指定color_func,则忽略该方法。
    fit_words(frequencies)  //根据词频生成词云
    generate(text)  //根据文本生成词云
    generate_from_frequencies(frequencies[, ...])   //根据词频生成词云
    generate_from_text(text)    //根据文本生成词云
    process_text(text)  //将长文本分词并去除屏蔽词(此处指英语,中文分词还是需要自己用别的库先行实现,使用上面的 fit_words(frequencies) )
    recolor([random_state, color_func, colormap])   //对现有输出重新着色。重新上色会比重新生成整个词云快很多。
    to_array()  //转化为 numpy array
    to_file(filename)   //输出到文件
    

    我的程序片段如下:

    txt = open("元气森林.txt",'r',encoding="UTF-8").read()
    image = numpy.array(Image.open('饮料瓶.png'))
    

    元气森林.txt和饮料瓶.png就是在准备部分中说的文档和图片。
    然后我的wordcloud和生成图片的代码如下

    wc = WordCloud(
        background_color="white",
        font_path="C:/Windows/Fonts/STKAITI.TTF",
        max_font_size=60,
        max_words=3000,
        mask = image
    ).generate(txt)
    plt.figure(figsize=(10,10))
    image_color = ImageColorGenerator(image)
    plt.imshow(wc.recolor(color_func=image_color))
    plt.axis('off')
    plt.show()
    wc.to_file("元气森林.jpg")
    

    最终得到的结果如下,词云制作成功。
    在这里插入图片描述

    3 分析与改进

    改进1:stopwords的加入
    这是非常重要的一步。
    如果仔细观看上面的词云图不难发现,其中有很多奇怪的词,比如天猫商城引导客户评价的关键词“口感味道”,“包装品质”等词,因为几乎每个评价都有,所以它的占比很重,字很大,但这是我们不需要的。除此以外,还有空评价“此用户没有填写评论”,hellip省略号等,我们需要将他们去除,就需要用到Stopwords。
    经过分析,我的stopwords代码段如下:

    stopwords = ['此用户没有填写评论','hellip','包装品质','配件问题','外观品相','口感味道','溶解难易']
    

    此步改进后结果如下,比改进前有效得多:
    在这里插入图片描述

    改进2:重定向颜色

    这一步有需要的话可以加上,可以将字体的颜色改为和我们选择的背景图片一样,代码如下

    plt.imshow(wc.recolor(color_func=image_color))
    

    修改后生成的图片如下,颜色和我们选择的背景图片颜色一致
    在这里插入图片描述

    4 可能出现的报错及解决方案

    在import包时,可能会报错
    在这里插入图片描述
    此时首先新建找到安装路径,代码如下

    import sys
    print(sys.executable)
    

    这是我的输出
    在这里插入图片描述
    复制粘贴到cmd中,删去“.exe”,在后面加上-m pip install wordcloud运行即可

    参考资料:
    【1】https://blog.csdn.net/u010309756/article/details/67637930
    【2】https://www.cnblogs.com/0422hao/p/11703700.html

    展开全文
  • 运用Jieba分词对红楼婪进行词云分析,可以分析红楼梦中词频及人物关系。
  • 1-词云分析.ipynb

    2021-08-10 20:18:27
    七一讲话精神的词云分析
  • python词云分析之名著词云分析

    千次阅读 2020-03-25 18:09:26
    看了嵩天老师的《python编程新思维及实战》的课程后,看词云分析挺有意思的,自己也想试试词云分析,所以就爬取了西游记,聊斋志异,红楼梦,三国演义四部图书,存放为txt文件格式,以供分析。 代码如下: # 导入...

    看了嵩天老师的《python编程新思维及实战》的课程后,看词云分析挺有意思的,自己也想试试词云分析,所以就爬取了聊斋志异,红楼梦,三国演义三部图书,存放为txt文件格式以供分析。本次的分析没有加入图片的形状,后续会加入图片的形状。
    代码如下:

    # 导入词云库
    import wordcloud
    # 导入jieba库,做分词使用
    import jieba
    
    # 需要分析的文本
    txt = "聊斋志异.txt"
    # 打开需要分析的文本,爬取的格式为gbk
    f = open(txt, 'r', encoding="gbk")
    # 读取文本内容
    t = f.read()
    # 读取后关闭
    f.close()
    # 精确模式,分词后返回一个列表
    ls = jieba.lcut(t)
    # 将空格与分词分隔开
    txt1 = " ".join(ls)
    # 调用词云
    w = wordcloud.WordCloud(font_path="simkai.ttf", background_color="white",
                            width=600, height=400, max_font_size=120, max_words=3000)
    # 生成词云
    w.generate(txt1)
    # 词云图片命名
    w.to_file(txt.split('.')[0] + ".png")
    

    分析结果如下:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • python3做词云分析

    2021-02-03 11:26:07
    #!/usr/bin/env python#-*- coding: utf-8 -*-# 导入扩展库import re # 正则表达式库import collections # 词频统计库import jieba # 结巴分词import jieba.analyseasanls="""为贯彻落实党的十八大关于全面深化改革...

    #!/usr/bin/env python

    #-*- coding: utf-8 -*-# 导入扩展库

    import re # 正则表达式库

    import collections # 词频统计库

    import jieba # 结巴分词

    import jieba.analyseasanl

    s="""为贯彻落实党的十八大关于全面深化改革的战略部署,十八届中央委员会第三次全体会议研究了全面深化改革的若干重大问题,作出如下决定。

    一、全面深化改革的重大意义和指导思想

    (1)改革开放是党在新的时代条件下带领全国各族人民进行的新的伟大革命,是当代中国最鲜明的特色。党的十一届三中全会召开三十五年来,我们党以巨大的政治勇气,锐意推进经济体制、政治体制、文化体制、社会体制、生态文明体制和党的建设制度改革,不断扩大开放,决心之大、变革之深、影响之广前所未有,成就举世瞩目。

    改革开放最主要的成果是开创和发展了中国特色社会主义,为社会主义现代化建设提供了强大动力和有力保障。事实证明,改革开放是决定当代中国命运的关键抉择,是党和人民事业大踏步赶上时代的重要法宝。

    实践发展永无止境,解放思想永无止境,改革开放永无止境。面对新形势新任务,全面建成小康社会,进而建成富强民主文明和谐的社会主义现代化国家、实现中华民族伟大复兴的中国梦,必须在新的历史起点上全面深化改革,不断增强中国特色社会主义道路自信、理论自信、制度自信。"""text=s

    keyword= anl.extract_tags(text, 200, withWeight=True, allowPOS=(‘v‘, ‘vd‘, ‘n‘, ‘nr‘, ‘ns‘, ‘nt‘, ‘nz‘))

    print(keyword)

    print(len(keyword))

    keyword= anl.textrank(text, 200, withWeight=True, allowPOS=(‘v‘, ‘vd‘, ‘n‘, ‘nr‘, ‘ns‘, ‘nt‘, ‘nz‘))

    print(keyword)

    print(len(keyword))

    string_data=s

    # 文本预处理

    pattern= re.compile(‘\t|\n|\.|-|:|;|\)|\(|\?|(|)|\|"|\u3000‘) # 定义正则表达式匹配模式

    string_data= re.sub(pattern, ‘‘, string_data) # 将符合模式的字符去除

    # 文本分词

    seg_list_exact= jieba.cut(string_data, cut_all=False) # 精确模式分词

    object_list=[]

    remove_words= [u‘的‘, u‘,‘, u‘和‘, u‘是‘, u‘随着‘, u‘对于‘, u‘对‘, u‘等‘, u‘能‘, u‘都‘, u‘。‘, u‘ ‘, u‘、‘, u‘中‘, u‘在‘, u‘了‘,

    u‘通常‘, u‘如果‘, u‘我们‘, u‘需要‘] # 自定义去除词库

    # remove_words= [line.strip() for line in open("CS.txt",encoding="utf-8").readlines()]for word inseg_list_exact: # 循环读出每个分词if word not inremove_words: # 如果不在去除词库中

    object_list.append(word) # 分词追加到列表

    # 词频统计

    word_counts=collections.Counter(object_list) # 对分词做词频统计

    word_counts_top10= word_counts.most_common(200) # 获取前10最高频的词

    print(word_counts_top10) # 输出检查

    print(len(word_counts_top10))

    展开全文
  • 数据来源及功能:爬取大数据文摘点赞量前10的文章,将文章转换成txt文档,进行词频分析并生成词云分析图。 Step1:安装所需库 pip install re pip install jieba pip install collections pip install numpy pip ...
  • python词云分析--媒体近期的讨论热点

    千次阅读 2020-04-06 06:56:20
    目录背景词云的定义词云的创建词云分析 背景 中国,美国,欧洲乃至全世界,近期都在经历一场紧张的战役,经济和民众的身体健康都被疫情至于危险之中。为了缓解疫情的冲击,越来越多的人加入了“ I quarantine for my...
  • 1首先打开Pycharm,创建一个项目,...2 导入词云包,导入之前必须先安装wordcloud。(macOs或Linux用户在终端使用 pip install wordcloud 命令安装)Windows用户使用下述步骤:安装步骤:①下载对应的.whl文件,cp后...
  • 2021年工作报告词频词云分析

    千次阅读 2021-03-07 11:25:00
    2021年工作报告词频词云分析 对2021年工作报告通过数据可视化生成关键词词云图,统计高频词语发现,今年出现频率最高的前五大词为:发展(137次)、建设(72次)、经济(62次)、企业(52次)、创新(43次)。以下将...
  • 今天来介绍一下如何使用 Python 制作词云词云又叫文字云,它可以统计文本中频率较高的词,并将这些词可视化,让我们可以直观的了解文本中的重点词汇。 词的频率越高,词显示的大小也就越大。 PS:如有需要...
  • Python爬取全网文字并词云分析(全程一键化!)

    千次阅读 多人点赞 2020-12-29 22:56:49
    收到请求之后,我马上就开始架构思路了,我通过观察网页结构发现了它的特点,最后我加上自己的设计思路,增加词云分析这个功能,多次测试,最终达到了一键化!!!!!!! 项目思路与功能介绍 1.用户输入该网站里面...
  • 利用爬虫做词云分析

    2020-12-08 18:24:30
    首先跟大家解释下,为什么更新的是关于爬虫的...今天,我们用爬虫来获取网页,然后再用word cloud做词云分析。一、爬虫框架的搭建1.1网络爬虫的基本思路爬虫的目的是获取网页的信息,一般的应用就是搜索引擎了。今...
  • 这可以用来做词频词云分析素材。分析红楼梦中人物出场频率,前八十回和后四十回的风格有什么差异,是不是曹雪芹一人完成。
  • B站视频弹幕+词云分析 0)项目自述 内容 描述 项目时间 2020.10.13-2020.10.16 项目难度 ⭐️⭐️ 1)所需库的安装 # 爬虫所需库 import requests # 用于请求网页,获取html网页信息 import parsel #...
  • 电影评论词云分析

    千次阅读 2018-10-19 16:41:56
    需求:将豆瓣电影的评论爬取出来,用词云的方式对其进行分析 步骤分析: 1). 分析网站的源码 2). 通过url获取电影名和电影id 3). 获取指定的电影的评论 4). 数据的清洗,去除一些不需要的信息 5). 进行词云的...
  • python--词云分析

    2021-03-06 22:22:26
    isFailFlag=1),选择自己喜爱的背景图,将关键词填充进去,根据关键词词频生成中文词云图。 考察知识点: 1)扩展库jieba、numpy等的安装与使用; 2)熟练文本分词、关键词计数等技术。 代码如下: 代.
  • 微信聊天记录词云分析

    千次阅读 2020-01-29 20:58:02
    -词云分析 获取微信聊天记录加密数据 安卓手机获取微信导出微信聊天记录需要先获取root权限,这个风险比较大,而且我这个手机比较小众,root很麻烦。今天看到一个直接下载安卓模拟器,在上面下载微信,导入聊天记录...
  • R语言进行词云分析

    万次阅读 2017-09-26 18:19:39
    用R语言中jiebaR包和wordcloud包进行词云分析jiebaR包 打开R语言,在程序包->安装程序包中进行jiebaR的安装。 jiebaR是一款高效的R语言中文分词包,底层使用的是C++,通过Rcpp进行调用很高效。结巴分词基于MIT协议...
  • 用Python做词云分析

    千次阅读 2018-07-23 23:50:18
    另外文本和词云包我是通过“tn/RRLnQgm”直接下载得到。这是我根据知乎专栏 “玉树芝兰” 的视频学习得来,有不懂的或者想更细致学习的请关注他。以下是我自己的体会和总结。  1、 安装完anaconda后,在开始-所有...
  • 词云分析的进一步理解

    千次阅读 2018-10-19 17:23:08
    分析每个电影评论信息分析绘制成词云, 保存为png图片,文件名为: 电影名.png; import requests from bs4 import BeautifulSoup import re import jieba import wordcloud import numpy f...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,459
精华内容 5,383
关键字:

词云分析