精华内容
下载资源
问答
  • 当前社会热点问题分析(2016).ppt
  • 当前社会热点难点分析.ppt
  • 基于社会网络分析的体育事业发展研究热点分析及聚类研究.pdf
  • 融合聚类算法和社会网络分析技术的学科交叉研究热点分析.pdf
  • 国内甲骨文研究热点、主题聚类及研究状况分析——基于共词和社会网络分析视角.pdf
  • 使用最新版本的Citespace软件分析作者和合著者网络,机构合着网络,以及在国内企业社会责任领域中的关键词共存网络,并以知识图的形式显示,旨在分析国内企业社会责任的研究热点和前沿趋势。 研究结果表明:首先,...
  • 社会热点和网络营销的关联

    千次阅读 2020-05-31 16:31:08
    社会热点问题,一般具有时代性、挑战性、普遍性、敏感性、流变性的特征。搞好热点报道,要借助于唯物辩证法,以科学、辩证、客观的思维方式来正确把握,要处理好如下一些关系:热点问题,冷静思考;透过现象,抓住...

    社会热点

    社会热点事件普遍是指在社会中引起广泛关注、参与讨论、激起民众情绪,引发强烈反响的事件,通俗点说就是被很多人熟知且讨论的事件。社会热点问题,一般具有时代性、挑战性、普遍性、敏感性、流变性的特征。搞好热点报道,要借助于唯物辩证法,以科学、辩证、客观的思维方式来正确把握,要处理好如下一些关系:热点问题,冷静思考;透过现象,抓住本质;共性着眼,个性着手;善于分析,解剖矛盾;力戒片面,把握好“度”;端正动机,讲究效果。

    网络营销

    网络营销是基于网络及社会关系网络连接企业、用户及公众,向用户及公众传递有价值的信息与服务,为实现顾客价值及企业营销目标所进行的规划、实施及运营管理活动。网络营销是企业整体营销战略的一个组成部分,网络营销是为实现企业总体经营目标所进行的,以互联网为基本手段,营造网上经营环境并利用数字化的信息和网络媒体的交互性来辅助营销目标实现的一种新型的市场营销方式。网络营销(On-line Marketing或E-Marketing)是随着互联网进入商业应用而产生的,尤其是万维网(www)、电子邮件(e-mail)、搜索引擎、社交软件等得到广泛应用之后,网络营销的价值才越来越明显。其中可以利用多种手段,如E-mail营销、博客与微博营销、网络广告营销、视频营销、媒体营销、竞价推广营销、SEO优化排名营销、大学生网络营销能力秀等。总体来讲,凡是以互联网或移动互联为主要平台开展的各种营销活动,都可称之为网络营销。

    举例分析两者之间的关系

    以筷子兄弟主演的电影《老男孩之猛龙过江》主题曲“小苹果”为例,分析其为何在推出之后能在如此短的时间内风靡大街小巷,而在这个迅速蹿红的过程中又是如何与网络营销相结合的?

    (一)从传播方式上来说
    在过去,新歌的推广渠道主要有:广播主持人推荐、电视节目打歌,或进入唱片门店销售。私人推荐有强烈的主观色彩、广播电视节目有时限性、销售货架有成本控制,然而网络音乐平台无限地拓宽了传统货架的长度,降低了歌曲摆上台面的成本,使音乐生产的数量和速度发生着极大的飞跃。先在PC、移动端病毒式一级传播,随后走入大街小巷,进入广场舞的阵营开始二级传播,由于媒介属性,自微博、微信等社交媒体出现后,互联网上的视频、音乐等所有门户网站增加链接分享的功能,都具备了社交属性,这类极具娱乐精神的歌曲在社交媒体中容易快速传播,被网民快速消费。

    互联网与移动科技给了音乐无限传播的可能性,让歌曲能够随时随地下载到电脑、手机等移动终端。人们习惯了免费地获取音乐,唱片逐渐远离公众视线,取而代之的是,音乐与互联网的碰撞融合。互联网,扩大了音乐舞台,赋予草根歌手话语权,让网民来定夺流行音乐的走向,让市场把握流行音乐的脉搏。

    (二)从“产品”的角度来讲,轻且接地气的更容易获得“用户”的亲近感
    音乐产品化,产生的经济效益是巨大的。相较于电影,音乐的传播更有优势,并且宣传方式更加丰富。把音乐产品化,以粉丝经济为支点,用“轻产品”撬动“大电影”,是小苹果的营销思路。“轻产品”指的是音乐成本小,容易在较短时间快速推广,提高知名度,引起社会反响。把音乐做成产品,用营销手段增强知名度,成为一个社会话题后,通过音乐带动其他文化产品能达到可观的经济收益。

    (三)从传播平台和版权上来讲
    《小苹果》选择优酷作为首发平台,无疑将得到优酷全方面的优势推广资源。
    版权开放,引导试二次创作创作者均是“产品”推广的个体分发渠道,以点带面“病毒式”传播,《小苹果》的版权是开放的,任何人都可以进行二次创作,无论是个人,还是舞蹈教学,或是集体广场舞等形式,都可以借力推广,节约成本的同时又不局限于原作品有限的传播点

    筷子兄弟过去的作品重视音乐的文化内涵,如《老男孩》、《父亲》都通过对青春的思考、生命的感悟与观众达成共鸣。此次《小苹果》颠覆风格,走红背后,“娱乐化”、“营销”这两个因素提醒我们,利用大众的娱乐消费推广电影的“神曲”模式在未来是否会大量仿制,批量生产,将流行音乐带到一个“娱乐至上”的道路。

    展开全文
  • 利用SATI3.2、SPSS19.0和Ucinet6.0软件,对近十年国内有关独生子女研究的热点进行分析。结果表明,近十年国内独生子女研究主题主要集中在独生子女优生优育研究、独生子女家庭养老问题研究、独生子女心理健康研究、独生...
  • 为准确了解我国转型升级的研究热点,及时把握该领域的研究动态,在收集CSSCI期刊中2005年1月—2014年10月有关转型升级论文的基础上,将其关键词进行整理归类,并运用Ucinet 6.216对关键词网络进一步分析。结果显示,目前...
  • 利用Citespace进行引文热点分析

    千次阅读 2020-07-07 16:51:15
    一、实验前需安装JAVA环境和Citespace分析软件; 二、实验操作 2.1下载数据源; 在CNKI中选择\文选择《情报学报》发表的论文,利用词频分析法对2017年至2019年期间《情报学报》上的论文进行统计分析,用校园网进入...

    一、实验前需安装JAVA环境和Citespace分析软件;
    二、实验操作
    2.1下载数据源;
    在CNKI中选择\文选择《情报学报》发表的论文,利用词频分析法对2017年至2019年期间《情报学报》上的论文进行统计分析,用校园网进入CNKI,以《情报学报》为期刊名,从2017年至2019年,进行检索;合314条
    在这里插入图片描述
    对数据进行以314条数据进行导出。
    在这里插入图片描述
    2.2将原始数据导入Citespace分析软件,转换成Citespace识别数据
    (1)导入数据之前,在桌面建立三个文件夹,分别为input、output、project ,将下载的TXT文本数 据重命名为“download+…”格式;
    在这里插入图片描述
    (2)导入数据—— data —— import ——选择原始数据路径(input文件夹)——选择转换后数据路径(output文件夹)——转换
    在这里插入图片描述
    2.3创建Project ,并设置相关阈值,运行Citespace分析软件
    (1) 创建project—— new —— name —— 选择project路径(project文件夹)——选择数据路径(output文件夹)——选择语言(根据下载数据的语言进行选择)——保存;
    在这里插入图片描述
    (2)时间范围:选择和下载数据年限相一致的时间范围;
    时间切片:根据自身分析要求,数据量大的可以将切片时间加大;
    节点类型的设置:根据需要分析的内容,选择相应的节点类型,包含作者、机构、主题词、关键词、共被引引文、共被引作者、国家、期刊来源等类型;
    设置阈值:根据分析的侧重点,选择设置阈值
    在这里插入图片描述
    2.4运行
    在这里插入图片描述
    步骤5:对生成的知识图谱进行分析
    在这里插入图片描述

    从实验结果可以看出大数据、著作权、深度学习、网络舆情等为研究热点。说明情报学报的论文收录和图书情报专业研究的倾向趋势和热点。

    第4个教学单元(2H) 时间: 2019 年 5 月 9 日
    研究热点分析
    一、实验前需安装JAVA环境和Citespace分析软件;
    二、实验操作
    1:下载数据源;
    中文社会科学引文索引(CSSCI)——新版系统入口——高级检索(输入相关检索信息,提高数据查全率和查准率)——选择下载的数据
    在这里插入图片描述
    在这里插入图片描述

    (1) 将原始数据导入Citespace分析软件,转换成Citespace识别数据
    ①导入数据之前,在桌面建立三个文件夹,分别为input、output、project ,将下载的TXT文本数据重命名为“download+。。”格式;

    ②导入数据—— data —— import——点击CSSCI ——input Directory(浏览输入自己下载的数据)——output(输入自己新建的output文件夹)——转换;
    创建Project ,并设置相关阈值,运行Citespace分析软件
    (1) 创建project—— new —— name —— 选择project路径(project文件夹)——选 择数据路径(output文件夹)——选择语言(根据下载数据的语言进行选择)——保存;
    在这里插入图片描述
    (2) 时间范围:选择和下载数据年限相一致的时间范围;
    时间切片:根据自身分析要求,数据量大的可以将切片时间加大;
    节点类型的设置:根据需要分析的内容,选择相应的节点类型,包含作者、机构、主题词、关键词、共被引引文、共被引作者、国家、期刊来源等类型;
    设置阈值:根据分析的侧重点,选择设置阈值
    在这里插入图片描述

    (2) 运行
    在这里插入图片描述
    步骤5:对生成的知识图谱进行分析
    在这里插入图片描述
    总结:
    节点代表分析的对象,在情报学报该关键词下出现马费城、迈克、王芳等人文献被引频次较多,节点更大。点度中心都是引文是否处于中心地位,点度中心度越高,表示该期刊处于中心地位;中介中心度时测量行动者对资源的控制程度,中间中心度越高,则表示该期刊越具代表性;出度越大,表示引用其他期刊次数越多;入度越大,则表示被引用的次数越多。

    展开全文
  • 一种面向社会网络的热点话题数据挖掘算法.pdf
  • 本文将详细讲解文本挖掘领域的词云热点分析和LDA主题分布分析。两万字基础文章,希望对您有所帮助。欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个...

    欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给大家,希望对您有所帮助,文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持,知识无价人有情,希望我们都能在人生路上开心快乐、共同成长。

    前一篇文章讲述了数据预处理、Jieba分词和文本聚类知识,这篇文章可以说是文本挖掘和自然语言处理的入门文章。本文将详细讲解文本挖掘领域的词云热点分析和LDA主题分布分析。两万字基础文章,希望对您有所帮助。

    近年来,词云热点技术和文档主题分布分析被更广泛地应用于数据分析中,通过词云热点技术形成类似云的彩色图片来聚集关键词,从视觉上呈现文档的热点关键词;通过文档主题分布识别文档库或知识语料中潜藏的主题信息,计算作者感兴趣的文档主题和每篇文档所涵盖的主题比例。本文主要介绍WordCloud技术的词云热点分布和LDA模型的主题分布,并结合真实的数据集进行讲解。

    下载地址:

    前文赏析:

    第一部分 基础语法

    第二部分 网络爬虫

    第三部分 数据分析和机器学习

    作者新开的“娜璋AI安全之家”将专注于Python和安全技术,主要分享Web渗透、系统安全、人工智能、大数据分析、图像识别、恶意代码检测、CVE复现、威胁情报分析等文章。虽然作者是一名技术小白,但会保证每一篇文章都会很用心地撰写,希望这些基础性文章对你有所帮助,在Python和安全路上与大家一起进步。


    一.词云技术

    首先,读者可能会疑问什么是词云呢?词云又叫文字云,是对文本数据中出现频率较高的关键词在视觉上的突出呈现,出现频率越高的词显示得越大或越鲜艳,从而将关键词渲染成类似云一样的彩色图片,感知文本数据的主要主题及核心思想。

    1.词云

    “词云”就是对网络文本中出现频率较高的关键词,予以视觉上的突出,使浏览网页者只要一眼扫过文本就可以领略文本的主旨,主要利用文本挖掘和可视化技术。个性化词云既是研究分析内容的一种表现方式,又是广告传媒的一种“艺术品”。在Python中,通过安装WordCloud词云扩展包可以形成快速便捷的词云图片。词云可以使关键词可视化展现,更加直观、艺术。

    在这里插入图片描述

    图1是关于文学文章的词云分析结果。首先对一些文章进行词频统计,然后绘制对应的图形,其中“文学”、“小说”、“中国”、“历史”等字体显示较大,表示这类文章的出现频率较高;而“金融”、“绘画”、“悬疑”字体较小,表示它们出现的频率较小。图2是对某些编程技术文章的词云分析结果图,从图中词云分析可以看出这些技术文章的热点话题有图形学、算法、计算机、编译器等,热点技术有Android、Python、ReactOS、SQL等,同时该图呈现了一定的形状。

    在这里插入图片描述

    前面讲述了词云的效果图,由于其炫酷的效果,很多广告公司、传媒海报都利用该技术进行宣传。下面将讲解Python调用WordCloud库进行词云分析,图3是词云分析的算法流程,包括读取文件、中文分词、词云库导入、词云热点分析和可视化分析。

    在这里插入图片描述


    2.安装WordCloud

    安装WordCloud词云扩展包主要利用前文常见的pip工具包,同时Python处理中文语料需要调用Jieba结巴分词库进行中文分词处理,则需要安装Jieba扩展包。

    pip install WordCloud
    pip install jieba
    

    安装过程如图所示。

    在这里插入图片描述

    在这里插入图片描述

    注意:在安装WordCloud过程中,你可能遇到的一个错误“error: Microsoft Visual C++ 9.0 is required. Get it from http://asa.ms/vcpython27”,这时需要下载VCForPython27可执行文件并进行安装,在微软官网有相关软件(Microsoft Visual C++ Compiler for Python 2.7)供下载。

    在Python开发过程中,可能会遇到各种各样的问题,希望读者都能养成通过谷歌或百度等搜索引擎独立解决的习惯,这是非常宝贵的一种能力,并且将终生受益。


    二.WordCloud基本用法

    1.快速入门

    当WordCloud词云扩展包和Jieba分词工具安装完成以后,下面开始快速入门。假设存在下面test.txt的中文语料,这是前一篇文章讲解数据预处理的自定义语料,内容如下:

    贵州省 位于 中国 西南地区 简称 黔 贵
    走遍 神州大地 醉美 多彩 贵州
    贵阳市 贵州省 省会 林城 美誉
    数据分析 数学 计算机科学 相结合 产物
    回归 聚类 分类 算法 广泛应用 数据分析
    数据 爬取 数据 存储 数据分析 紧密 相关 过程
    甜美 爱情 苦涩 爱情
    一只 鸡蛋 可以 画 无数次 一场 爱情 能
    真 爱 往往 珍藏 平凡 普通 生活
    

    接下来执行文件,它将调用WordCloud扩展包绘制test.txt中文语料对应的词云,完整代码如下所示:

    # -*- coding: utf-8 -*- 
    #coding=utf-8
    #By:Eastmount CSDN
    import jieba  
    import sys  
    import matplotlib.pyplot as plt  
    from wordcloud import WordCloud  
    
    text = open('test.txt').read()  
    print(type(text)) 
    wordlist = jieba.cut(text, cut_all = True)  
    wl_space_split = " ".join(wordlist)  
    print(wl_space_split)   
    my_wordcloud = WordCloud().generate(wl_space_split)   
    plt.imshow(my_wordcloud)   
    plt.axis("off")  
    plt.show()
    

    输出结果如图所示,其中出现比较频繁的贵州省、数据、爱情显示较大。

    在这里插入图片描述

    代码详解如下:

    (1) 导入Python扩展包
    首先需要调用import和from import导入相关的函数包,Python的词云分析主要调用WordCloud包进行,调用jieba扩展包进行分词,调用matplotlib扩展包绘制图形。

    import jieba  
    import sys  
    import matplotlib.pyplot as plt  
    from wordcloud import WordCloud   
    

    (2) 调用jieba工具分词处理
    接下来调用open()函数读取爬取的语料“test.txt”文件,再调用jieba扩展包进行分词处理。核心代码如下:

    text = open('test.txt').read()  
    wordlist = jieba.cut(text, cut_all = True)  
    wl_space_split = " ".join(wordlist)  
    print(wl_space_split)
    

    其中,结巴分词调用函数jieba.cut(text, cut_all = True),参数“cut_all=True”表示设置为全模型。结巴中文分词支持的三种分词模式包括:

    • 精确模式:该模式将句子最精确地切开,适合做文本分析。
    • 全模式:将句子中所有可以成词的词语都扫描出来, 速度非常快,缺点是不能解决歧义问题。
    • 搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

    代码示例如下:

    #coding=utf-8
    #By:Eastmount CSDN
    import jieba  
      
    #全模式  
    text = "我来到北京清华大学"  
    seg_list = jieba.cut(text, cut_all=True)  
    print("[全模式]: ", "/ ".join(seg_list))
    #[全模式]: 我 / 来到 / 北京 / 清华 / 清华大学 / 华大 /大学
      
    #精确模式  
    seg_list = jieba.cut(text, cut_all=False)  
    print("[精确模式]: ", "/ ".join(seg_list))
    #[精确模式]: 我 / 来到 / 北京 / 清华大学
      
    #默认是精确模式  
    seg_list = jieba.cut(text)  
    print("[默认模式]: ", "/ ".join(seg_list)) 
    #[默认模式]: 我 / 来到 / 北京 / 清华大学 
     
     #搜索引擎模式  
    seg_list = jieba.cut_for_search(text)   
    print("[搜索引擎模式]: ", "/ ".join(seg_list))
    #[搜索引擎模式]: 我 / 来到 / 北京 / 清华 / 华大 / 大学 / 清华大学 
    

    代码wl_space_split = " ".join(wordlist)表示将中文分词的词序列按照空格连接,并生成分词后的字符串,赋值给wl_space_split变量。

    (3) 调用WordCloud函数生成词云热点词频
    调用WordCloud()函数生成词云,其中该函数核心参数包括设置背景颜色、设置背景图片、最大实现词数、字体最大值、颜色种类数。借用Python强大的第三方扩展包对该语料进行词云分析,其中核心代码如下:

    # 读取mask/color图片  
    d = path.dirname(__file__)  
    nana_coloring = imread(path.join(d, "1.jpg")) 
     
    # 对分词后的文本生成词云  
    my_wordcloud = WordCloud( background_color = 'white', #背景颜色  
                        mask = nana_coloring,    #设置背景图片  
                        max_words = 2000,        #设置最大现实的字数  
                        stopwords = STOPWORDS,   #设置停用词  
                        max_font_size = 200,     #设置字体最大值  
                        random_state = 30,       #设置有多少种随机生成状态,即有多少种配色方案    
                        )  
    # generate word cloud   
    my_wordcloud.generate(wl_space_split) 
    

    上述示例代码主要使用WordCloud()函数,并省略了参数。

    • my_wordcloud = WordCloud().generate(wl_space_split)

    (4) 调用imshow扩展包进行可视化分析
    接下来调用plt.imshow(my_wordcloud)代码显示语料的词云,词频变量为my_wordcloud;调用plt.axis(“off”)代码是否显示x轴、y轴下标,最后通过plt.show()代码展示词云。

    plt.imshow(my_wordcloud)   
    plt.axis("off")  
    plt.show()  
    

    总之,词云分析可以广泛的应用于词频分析,可以直观的给出文章的主题词等内容,接下来讲解的CSDN技术论坛分析实例很好地利用了该技术。


    2.中文编码问题

    如果语料是中文,在词云分析中可能出现中文乱码的情况,如图所示,在绘制的词云中,其中文关键词均错误的显示为方框,而英文字母组成的关键词能够显示。

    在这里插入图片描述

    其解决方法是在WordCloud安装的目录下找到wordcloud.py文件,对该文件中的源码进行修改,下图为wordcloud.py源文件。

    在这里插入图片描述

    编辑wordcloud.py,找到FONT_PATH,将DroidSansMono.ttf修改成msyh.ttf。这个msyh.ttf表示微软雅黑中文字体。

    在这里插入图片描述

    注意,此时运行代码还是报错,因为需要在同一个目录下放置msyh.ttf字体文件供程序调用,如图所示,这是原来的字体DroidSansMono.ttf文件。

    在这里插入图片描述

    此时的运行结果如下所示,这是分析CSDN多篇博客所得到的词云,其中“阅读”和“评论”出现的比较多,因为每篇文章都有对应的阅读数和评论数,所以该关键字显示较为突出。下图通过词云图形清晰地显示了热点词汇。

    在这里插入图片描述

    同时,也可以通过另一种方法解决中文乱码的错误,在py文件中增加一行代码。

    • wordcloud = WordCloud(font_path = ‘MSYH.TTF’).fit_words(word)

    3.词云形状化

    前面我们看到的词云图形都是有形状的,比如下面关于R语言描述语料形成的词云,整个形状也是呈“R”的,同时“统计”、“数据分析”、“大数据”是相关词汇。

    在这里插入图片描述

    那么,怎么形式这种词云呢?
    调用Python扩展包scipy.misc的imread()函数可以绘制指定图形的词云,下图是分析作者和女朋友近期微信聊天记录的词云图,完整代码如下所示:

    #coding=utf-8
    #By:Eastmount CSDN
    from os import path  
    from scipy.misc import imread    
    import jieba  
    import sys  
    import matplotlib.pyplot as plt  
    from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator    
      
    # 打开本体TXT文件  
    text = open('data-fenci.txt').read()  
      
    # 结巴分词 cut_all=True 设置为全模式   
    wordlist = jieba.cut(text)     #cut_all = True  
      
    # 使用空格连接 进行中文分词  
    wl_space_split = " ".join(wordlist)  
    print(wl_space_split)
      
    # 读取mask/color图片  
    d = path.dirname(__file__)  
    nana_coloring = imread(path.join(d, "pic.png"))  
      
    # 对分词后的文本生成词云  
    my_wordcloud = WordCloud( background_color = 'white',    
                                mask = nana_coloring,         
                                max_words = 2000,            
                                stopwords = STOPWORDS,       
                                max_font_size = 50,          
                                random_state = 30,          
                                )  
      
    # generate word cloud   
    my_wordcloud.generate(wl_space_split)  
      
    # create coloring from image    
    image_colors = ImageColorGenerator(nana_coloring)  
      
    # recolor wordcloud and show    
    my_wordcloud.recolor(color_func=image_colors)  
      
    plt.imshow(my_wordcloud)    # 显示词云图  
    plt.axis("off")             # 是否显示x轴、y轴下标  
    plt.show()  
      
    # save img    
    my_wordcloud.to_file(path.join(d, "cloudimg.png"))  
    

    输出的词云如图所示,右边的词云图是根据左边的图形形状生成的,其中“宝宝”、“我们”、“哈哈哈”等关键词比较突出。

    在这里插入图片描述

    同样可以输出作者近十年的博客词云图。

    请添加图片描述


    三.文档主题模型

    文档主题生成模型(Latent Dirichlet Allocation,简称LDA)通常由包含词、主题和文档三层结构组成。LDA模型属于无监督学习技术,它是将一篇文档的每个词都以一定概率分布在某个主题上,并从这个主题中选择某个词语。文档到主题的过程是服从多项分布的,主题到词的过程也是服从多项分布的。本小节将介绍LDA主题模型、安装过程、基本用法,并通过一个实例来讲解文档主题分布。

    1.LDA主题模型

    文档主题生成模型(Latent Dirichlet Allocation,简称LDA)又称为盘子表示法(Plate Notation),图22.14是模型的标示图,其中双圆圈表示可测变量,单圆圈表示潜在变量,箭头表示两个变量之间的依赖关系,矩形框表示重复抽样,对应的重复次数在矩形框的右下角显示。LDA模型的具体实现步骤如下:

    • 从每篇网页D对应的多项分布θ中抽取每个单词对应的一个主题z。
    • 从主题z对应的多项分布φ中抽取一个单词w。
      重复步骤(1)(2),共计Nd次,直至遍历网页中每一个单词。

    在这里插入图片描述

    \

    现在假设存在一个数据集DS,数据集中每篇语料记为D,整个数据集共T个主题,数据集的特征词表称为词汇表,所包含的单词总数记为V。LDA模型对其描述的内容是:数据集DS中每个实篇语料D都与这T个主题的多项分布相对应,记为多项分布θ;每个主题都与词汇表中V个单词的多项分布相对应,记为多项分布φ。其中θ和φ分别存在一个带超参数的α和β的狄利克雷先验分布,后面将结合具体实例深入讲解。


    2.LDA安装过程

    读者可以从gensim中下载ldamodel扩展包安装,也可以使用Sklearn机器学习包的LDA子扩展包,亦可从github中下载开源的LDA工具。下载地址如下所示。

    • gensim:https://radimrehurek.com/gensim/models/ldamodel.html
    • scikit-learn:利用pip install sklearn命令安装扩展包,LatentDirichletAllocation函数即为LDA原型
    • github:https://github.com/ariddell/lda

    作者最后使用的是通过“pip install lda”安装的官方LDA模型。

    • pip install lda

    在命令框CMD中输入该命令令安装LDA模型,安装过程如下图所示,安装成功显示“Successfully installed lda-1.0.3 pbr-1.8.1”。

    在这里插入图片描述

    在这里插入图片描述

    作者更推荐大家使用“pip install lda”语句安装的官方LDA扩展包,该方法简洁方便,更值得大家学习和使用。


    四.LDA基本用法及实例

    Python的LDA主题模型分布可以进行多种操作,常见的包括:输出每个数据集的高频词TOP-N;输出文章中每个词对应的权重及文章所属的主题;输出文章与主题的分布概率,文本一行表示一篇文章,概率表示文章属于该类主题的概率;输出特征词与主题的分布概率,这是一个K*M的矩阵,K为设置分类的个数,M为所有文章词的总数。下面让我们结合实例开始学习LDA模型的用法吧!

    这里使用的数据集为上一篇文章讲解数据预处理,对其进行数据分词、清洗、过滤后的数据集,如表所示,共9行语料,涉及贵州、大数据、爱情三个主题。

    在这里插入图片描述

    1.初始化操作

    (1) 生成词频矩阵
    首先,需要读取语料test.txt,载入数据并将文本中的词语转换为词频矩阵。调用 sklearn.feature_extraction.text 中的 CountVectorizer 类实现,代码如下:

    #coding=utf-8
    #By:Eastmount CSDN
    # coding:utf-8  
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.feature_extraction.text import TfidfTransformer  
      
    #读取语料
    corpus = []  
    for line in open('test.txt', 'r').readlines():  
        corpus.append(line.strip())
    
    #将文本中的词语转换为词频矩阵
    vectorizer = CountVectorizer()
    
    #计算个词语出现的次数
    X = vectorizer.fit_transform(corpus)
    
    #获取词袋中所有文本关键词 
    word = vectorizer.get_feature_names()
    
    print('特征个数:', len(word))
    for n in range(len(word)):  
        print(word[n],end=" ")
    print('')
    
    #查看词频结果  
    print(X.toarray())
    

    其中输出的X为词频矩阵,共9行数据,43个特征或单词,即9*43,它主要用于计算每行文档单词出现的词频或次数。输出如下图所示,其中第0行矩阵表示第一行语料“贵州省 位于 中国 西南地区 简称 黔 贵”出现的频率。同时调用 vectorizer.get_feature_names() 函数计算所有的特征或单词。

    在这里插入图片描述

    (2) 计算TF-IDF值
    接下来调用TfidfTransformer类计算词频矩阵对应的TF-IDF值,它是一种用于数据分析的经典权重,其值能过滤出现频率高且不影响文章主题的词语,尽可能的用文档主题词汇表示这篇文档的主题。

    #coding=utf-8
    #By:Eastmount CSDN
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.feature_extraction.text import TfidfTransformer  
      
    #读取语料
    corpus = []  
    for line in open('test.txt', 'r').readlines():  
        corpus.append(line.strip())
        
    #将文本中的词语转换为词频矩阵
    vectorizer = CountVectorizer()  
    X = vectorizer.fit_transform(corpus)  #计算个词语出现的次数  
    word = vectorizer.get_feature_names() #获取词袋中所有文本关键词
    print('特征个数:', len(word))
    for n in range(len(word)):  
        print(word[n],end=" ")
    print('')  
    print(X.toarray())                    #查看词频结果 
    
    #计算TF-IDF值
    transformer = TfidfTransformer()  
    print(transformer)
    tfidf = transformer.fit_transform(X) #将词频矩阵X统计成TF-IDF值
    
    #查看数据结构 输出tf-idf权重
    print(tfidf.toarray())
    weight = tfidf.toarray()
    

    输出如图所示,它也是9*43的矩阵,只是矩阵中的值已经计算为TF-IDF值了。

    在这里插入图片描述

    (3) 调用LDA模型
    得到TF-IDF值之后,可以进行各种算法的数据分析了,这里则调用lda.LDA()函数训练LDA主题模型,其中参数n_topics表示设置3个主题(贵州、数据分析、爱情),n_iter表示设置迭代次数500次,并调用fit(X)或fit_transform(X)函数填充训练数据,具体代码如下:

    model = lda.LDA(n_topics=3, n_iter=500, random_state=1)  
    model.fit(X)          
    #model.fit_transform(X) 
    

    运行过程如图所示。

    在这里插入图片描述

    读者也可以import lda.datasets导入官方数据集,然后调用lda.datasets.load_reuters()函数载入数据集进行分析,这里作者则直接对下表实例数据集进行LDA分析。

    在这里插入图片描述


    2.计算文档主题分布

    该语料共包括9行文本,每一行文本对应一个主题,其中1-3为贵州主题,4-6为数据分析主题,7-9为爱情主题,现在使用LDA文档主题模型预测各个文档的主体分布情况,即计算文档-主题(Document-Topic)分布,输出9篇文章最可能的主题代码如下。

    #coding=utf-8
    #By:Eastmount CSDN
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.feature_extraction.text import TfidfTransformer  
    import lda
    import numpy as np
    
    #生成词频矩阵
    corpus = []  
    for line in open('test.txt', 'r').readlines():  
        corpus.append(line.strip())
    vectorizer = CountVectorizer()  
    X = vectorizer.fit_transform(corpus)    
    word = vectorizer.get_feature_names()
    
    #LDA分布
    model = lda.LDA(n_topics=3, n_iter=500, random_state=1)  
    model.fit(X)
    
    #文档-主题(Document-Topic)分布 
    doc_topic = model.doc_topic_
    print("shape: {}".format(doc_topic.shape))  
    for n in range(9):  
        topic_most_pr = doc_topic[n].argmax()  
        print(u"文档: {} 主题: {}".format(n,topic_most_pr))  
    

    输出结果如图所示,可以看到LDA算法将第1、7、8篇文档归纳为一个主题,第2、5、9篇文档归纳为一个主题,第3、4、6篇文档归纳为一个主题。而真实的主题是第1-3篇文档为贵州主题,第4-6篇文档为数据分析主题,第7-9篇文档为爱情主题,所以数据分析预测的结果会存在一定的误差,这是由于每篇文档的单词较少,影响了实验结果。

    在这里插入图片描述

    同时,在进行数据分析时,通常需要采用准确率、召回率或F特征值来评估一个算法的好坏,研究者也会不断的优化模型或替换为更好的算法。


    3.主题关键词的Top-N

    下面讲解计算各个主题下包括哪些常见的单词,即计算主题-词语(Topic-Word)分布。下面代码用于计各主题5的词频最高的五个单词,即Top-5,比如爱情主题下最常见的五个单词是“爱情 鸡蛋 苦涩 一场 中国”。

    代码如下所示,首先分别计算各个主题下的关键词语。

    #主题-单词(Topic-Word)分布
    word = vectorizer.get_feature_names()
    topic_word = model.topic_word_  
    for w in word:  
        print(w,end=" ")
    print('')
    
    n = 5    
    for i, topic_dist in enumerate(topic_word):    
        topic_words = np.array(word)[np.argsort(topic_dist)][:-(n+1):-1]    
        print(u'*Topic {}\n- {}'.format(i, ' '.join(topic_words)))
    

    在上述代码中,vectorizer.get_feature_names()函数用于列举出各个特征或词语, model.topic_word_函数是存储各个主题单词的权重。首先输出所有的单词,再输出三个主题中包含的前5个单词,输出如下:

    一只 一场 中国 产物 位于 分类 可以 回归 多彩 存储 平凡 广泛应用 往往 数学 数据 数据分析 无数次 普通 林城 爬取 爱情 珍藏 甜美 生活 相关 相结合 省会 神州大地 简称 算法 紧密 美誉 聚类 苦涩 西南地区 计算机科学 贵州 贵州省 贵阳市 走遍 过程 醉美 鸡蛋 
    *Topic 0
    - 珍藏 多彩 林城 醉美 生活
    *Topic 1
    - 爱情 鸡蛋 苦涩 一场 中国
    *Topic 2
    - 数据分析 数据 聚类 数学 爬取
    

    接着通过通过代码计算各个主题通过LDA主题模型分析之后的权重分布,代码如下:

    #主题-单词(Topic-Word)分布
    print("shape: {}".format(topic_word.shape))  
    print(topic_word[:, :3])  
    for n in range(3):  
        sum_pr = sum(topic_word[n,:])  
        print("topic: {} sum: {}".format(n,  sum_pr))  
    

    首先计算topic_word矩阵的形状,即shape: (3L, 43L),它表示3个主题、43个特在词。topic_word[:, :3]输出三个主题的前三个词语对应的权重,最后计算每行语料所有特征词的权重和,求和值均为1。

    shape: (3L, 43L)
    [[ 0.00060864  0.00060864  0.00060864]
     [ 0.06999307  0.06999307  0.06999307]
     [ 0.00051467  0.00051467  0.00051467]]
    topic: 0 sum: 1.0
    topic: 1 sum: 1.0
    topic: 2 sum: 1.0
    

    输出如图所示。

    在这里插入图片描述


    4.可视化处理

    最后作者将讲述LDA常用的两种可视化处理,这里直接给出完整代码。

    (1) 文档-主题分布图

    #coding=utf-8
    #By:Eastmount CSDN 
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.feature_extraction.text import TfidfTransformer  
    import lda
    import numpy as np
    
    #生词频矩阵
    corpus = []  
    for line in open('test.txt', 'r').readlines():  
        corpus.append(line.strip())
    vectorizer = CountVectorizer()  
    X = vectorizer.fit_transform(corpus)  
      
    #LDA分布
    model = lda.LDA(n_topics=3, n_iter=500, random_state=1)  
    model.fit_transform(X)
    
    #文档-主题(Document-Topic)分布 
    doc_topic = model.doc_topic_
    print("shape: {}".format(doc_topic.shape))  
    for n in range(9):  
        topic_most_pr = doc_topic[n].argmax()  
        print("文档: {} 主题: {}".format(n+1,topic_most_pr))
        
    #可视化分析
    import matplotlib.pyplot as plt  
    f, ax= plt.subplots(9, 1, figsize=(10, 10), sharex=True)  
    for i, k in enumerate([0,1,2,3,4,5,6,7,8]):  
        ax[i].stem(doc_topic[k,:], linefmt='r-',  
                   markerfmt='ro', basefmt='w-')  
        ax[i].set_xlim(-1, 3)      #三个主题
        ax[i].set_ylim(0, 1.0)     #权重0-1之间
        ax[i].set_ylabel("y")  
        ax[i].set_title("Document {}".format(k+1))  
    ax[4].set_xlabel("Topic")  
    plt.tight_layout()
    plt.savefig("result.png")
    plt.show() 
    

    输出结果如下图,它是计算文档Document1到Document9各个主题分布情况。X轴表示3个主题,Y轴表示对应每个主题的分布占比情况。如果某个主题分布很高,则可以认为该篇文档属于该主题。例如Document1、Document7和Document8在第1个主题分布最高,则可以认为这两篇文章属于主题1。

    请添加图片描述

    文档: 1 主题: 1
    文档: 2 主题: 0
    文档: 3 主题: 2
    文档: 4 主题: 2
    文档: 5 主题: 0
    文档: 6 主题: 2
    文档: 7 主题: 1
    文档: 8 主题: 1
    文档: 9 主题: 0
    

    (2) 主题-词语分布图
    该图用于计算各个单词的权重,供43个特征或单词。

    #coding=utf-8
    #By:Eastmount CSDN 
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.feature_extraction.text import TfidfTransformer  
    import lda
    import numpy as np
    
    #生词频矩阵
    corpus = []  
    for line in open('test.txt', 'r').readlines():  
        corpus.append(line.strip())
    vectorizer = CountVectorizer()  
    X = vectorizer.fit_transform(corpus)
    
    #LDA分布
    model = lda.LDA(n_topics=3, n_iter=500, random_state=1)  
    model.fit_transform(X)
    
    #文档-主题(Document-Topic)分布 
    doc_topic = model.doc_topic_
    print("shape: {}".format(doc_topic.shape))  
    for n in range(9):  
        topic_most_pr = doc_topic[n].argmax()  
        print(u"文档: {} 主题: {}".format(n+1,topic_most_pr))
    topic_word = model.topic_word_
    
    #可视化分析
    import matplotlib.pyplot as plt
    f, ax= plt.subplots(3, 1, figsize=(8,6), sharex=True) #三个主题
    for i, k in enumerate([0, 1, 2]):
        ax[i].stem(topic_word[k,:], linefmt='b-',
                   markerfmt='bo', basefmt='w-')
        ax[i].set_xlim(-1, 43)      #单词43个
        ax[i].set_ylim(0, 0.5)      #单词出现频率
        ax[i].set_ylabel("y")
        ax[i].set_title("Topic {}".format(k))
    ax[1].set_xlabel("word")
    plt.tight_layout()
    plt.savefig("result2.png")
    plt.show() 
    

    输出如下图所示,它是计算主题topic0、topic1、topic2各个单词权重分布情况。横轴表示43个单词,纵轴表示每个单词的权重。

    请添加图片描述


    五.总结

    当今社会,词云热点技术和文档主题分布分析被更广泛地应用于数据分析中。通过词云热点技术形成类似云的彩色图片来聚集关键词,从视觉上呈现文档的热点关键词,并突出各关键词的重要程度,该技术被广泛应用于广告传媒、舆情分析、图片分析等领域。

    通过文档主题分布识别文档库或知识语料中潜藏的主题信息,计算文档作者感兴趣的主题和每篇文档所涵盖的主题比例,该技术被广泛应用于论文引文分析、聚类分析、自然语言处理、摘要自动生成等领域。本文详细讲解了Python环境下的WordCloud技术的词云热点分布和LDA模型的主题分布,并结合实例进行分析,希望读者能熟练掌握这两个技术并学以致用。

    在这里插入图片描述

    最后希望读者能复现每一行代码,只有实践才能进步。同时更多聚类算法和原理知识,希望读者下来自行深入学习研究,也推荐大家结合Sklearn官网和开源网站学习更多的机器学习知识。

    该系列所有代码下载地址:

    感谢在求学路上的同行者,不负遇见,勿忘初心。这周的留言感慨~

    在这里插入图片描述

    (By:娜璋之家 Eastmount 2021-08-10 夜于武汉 https://blog.csdn.net/Eastmount )


    参考文献

    • [1] 杨秀璋. 专栏:知识图谱、web数据挖掘及NLP - CSDN博客[EB/OL]. (2016-09-19)[2017-11-07]. http://blog.csdn.net/column/details/eastmount-kgdmnlp.html.
    • [2] 杨秀璋. [python数据挖掘课程]十三.WordCloud词云配置过程及词频分析[EB/OL]. (2017-03-21)[2017-11-07]. http://blog.csdn.net/eastmount/article/details/64438407.
    • [3] 杨秀璋. [python] LDA处理文档主题分布及分词、词频、tfidf计算[EB/OL]. (2016-03-15)[2017-12-01]. http://blog.csdn.net/eastmount/article/details/50891162.
    • [4] 杨秀璋. [python] 使用scikit-learn工具计算文本TF-IDF值[EB/OL]. (2016-08-08)[2017-12-01]. http://blog.csdn.net/eastmount/article/details/50323063.
    • [5] 杨秀璋. [python] 基于k-means和tfidf的文本聚类代码简单实现[EB\OL]. (2016-01-16)[2017-12-01]. http://blog.csdn.net/eastmount/article/details/50473675.
    • [6] Jiawei Han,Micheline Kamber著. 范明,孟小峰译. 数据挖掘概念与技术. 北京:机械工业出版社,2007.
    • [7] Github. WordCloud[EB/OL].(2017)[2017-12-01]. https://github.com/amueller/word_cloud.
    • [8] 半吊子全栈工匠. 10行python代码的词云[EB/OL]. (2017-03-06)[2017-12-01]. http://blog.csdn.net/wireless_com/article/details/60571394.
    • [9] 杨秀璋. [python] 使用Jieba工具中文分词及文本聚类概念[EB/OL]. (2015-12-11)[2017-12-01]. http://blog.csdn.net/eastmount/article/details/50256163.
    • [10] pypi官网. Python中文分词组件 jieba[EB/OL]. https://pypi.python.org/pypi/jieba/.
    • [11] scikit-learn官网. LatentDirichletAllocation[EB/OL]. http://www.scikit-learn.org/.
    • [12] gensim LDA下载地址[EB/OL]. https://radimrehurek.com/gensim/models/ldamodel.html
    展开全文
  • VOSviewer软件研究热点分析

    千次阅读 2020-06-30 23:13:18
    VOSviewer是众多科学知识图谱软件之一,即通过“网络数据”(主要是文献知识单元)的关系构建和可视化分析,实现科学知识图谱的绘制,展现知识领域的结构、进化、合作等关系,其突出特点是图形展示能力强,适合大...

    本文转载自:https://www.jianshu.com/p/c1859e8e5937

    VOSviewer是众多科学知识图谱软件之一,即通过“网络数据”(主要是文献知识单元)的关系构建和可视化分析,实现科学知识图谱的绘制,展现知识领域的结构、进化、合作等关系,其突出特点是图形展示能力强,适合大规模数据。

    image
    一、VOSviewer概况

    (一)开发历程

    VOSviewer是荷兰莱顿大学科技研究中心[1](The Centre for Science and Technology Studies, CWTS)的van Eck 和Waltman[2]于2009年开发的一款基于JAVA的免费软件,至今已更新至1.6.6版本(2017年10月23日发布)[3],主要面向文献数据,适应于一模无向网络的分析,侧重科学知识的可视化。

    (二)下载安装介绍

    1、本地安装使用:JAVA(java 6或更高版本) + VOSviewer

    (1)安装JAVA6或更高版本:https://www.java.com/zh_CN/

    (2)下载VOSviewer安装包:http://www.vosviewer.com/download

    提供windows、mac OS X及其他系统三种系统安装包支持)
    (3)运行:解压VOSviewer安装包,直接点击exe文件运行即可

    image
    2、网页使用:

    打开http://www.vosviewer.com/vosviewer.php,下载vosviewer.jnlp文件并启动。

    二、软件功能介绍

    (一)主要功能介绍

    VOSviewer软件设计的核心思想是“共现聚类”,即两个事物同时出现代表它们之间是相关的;这种相关关系存在多种类型,它们的强度和方向也不一样;基于关系强度与方向的测度指标聚类,可寻找不同类型的团体。

    image
    基于共现聚类的分析单元和聚类可视化效果,VOSviewer的主要功能可归结如下:

    1、支持多类数据格式

    VOSviewer支持文献数据库、通用网络数据及文本数据的导入和分析。其中文献数据库指从web of science、Scopus等主流数据库中下载文献著录数据,在此基础上提取相应的字段构建共现网络,如合作网络、共词网络、共被引和耦合网络等;通用网络数据指用户可以自建节点、联系数据或者直接导入GML或Pajek等网络数据文件实现共现聚类(附录二);文本数据指VOSviewer可以从单行文本中提取主题词,基于主题词在单行中的共现进行聚类,其中文本数据可以来自用户自建文件,也可以来源于相应文献数据库中的标题或摘要字段。

    image
    image
    image
    image
    2、提供多类视图解读

    VOSviewer提供可视化视图包括三种:network visualization(聚类视图)、overlay visualization(标签视图)、density visualization(密度视图)。

    (1)Network visualization(聚类视图)

    image
    visualization:圆圈和标签组成一个元素,元素的大小取决于节点的度、连线的强度、被引量等,元素的颜色代表其所属的聚类,不同的聚类用不同的颜色表示,通过该视图可以查看每个单独的聚类,例如通过主题共现发现研究热点的结构分布、通过作者合作发现研究小团体、通过作者耦合网络发现学者对研究主题的异同情况等。

    (2)Overlay visualization(标签视图)

    image
    visualization:区别于Networkvisualization的特点是用户可以根据自己的研究需要,通过map file文件中的score或颜色(红、绿、蓝)字段对节点赋予不同的颜色。默认按关键词的平均年份取score值进行颜色映射。

    (3)Density visualization(密度视图)

    image
    visualization:图谱上每一点都会根据该点周围元素的密度来填充颜色,密度越大,越接近红色;相反,密度越小,越接近蓝色。密度大小依赖于周围区域元素的数量以及这些元素的重要性。密度视图可用来快速观察重要领域以及某一领域知识及研究密度情况。

    (二)其他功能

    1、数据清洗功能

    数据清洗功能主要依赖于Thesaurus file文件,支持文献数据和文本数据,不支持自定义网络数据。当基于文献数据构建网络时,Thesaurus file可以被用来合并标题、作者名、机构名、国家名、被引文献;当基于文本数据构建网络时,Thesaurus file可以用来合并同义词、单词的不同拼写形式、缩写形式等。Thesaurus file每一行都包含一个标签(如人名、国家名等)和可替代标签,如果可替代标签为空,则原本的标签会被忽略显示,这可以被用来当做语料库的停顿词,或者忽略无意义的词。

    2、通用词汇筛选功能

    仅支持文本数据,主要针对数量较大、通用性较强但缺乏研究价值的词语,例如结论、方法等词汇,VOSviewer可以计算每个名词的相关度得分,允许用户省略较低得分的主题词,从而只对具有特定意义的词汇进行共现。

    3、高级功能

    (1)支持网页发布,节点及连线信息的显示可以基于HTML(仅适用于自定义数据)

    (2)支持使用命令行

    (3)支持内存扩充(解决处理大批量数据内存不足的问题)

    三、工作流程及实现技术

    image
    VOSviewer的处理流程与大部分的科学知识图谱类软件类似,即文件导入——信息单元抽取(如作者、关键词等)——建立共现矩阵——利用相似度计算对关系进行标准化处理——统计分析(一般描述统计+聚类)——可视化展现(布局+其它图形属性映射),其中,关键实现技术包括:

    1、数据标准化:支持不标准化、Association strength、Fractionalization LinLog/modularity。

    2、聚类算法:VOS聚类

    3、布局算法:VOS布局

    4、其它图形属性映射:支持用户对(节点/标签/连线/簇)大小/粗细、颜色、形状、标度等图形属性的设置。

    四、案例实践

    (一)基于关键词共现分析信息计量领域的研究结构

    1、数据来源介绍

    (1)检索平台:Web of science

    (2)检索式:SO=( SCIENTOMETRICS OR JOURNAL OF INFORMETRICS); 时间跨度: 所有年份;索引: SCI-EXPANDED, SSCI,A&HCI;文献类型不限。

    (3)检索结果:3874篇(检索时间:2017.11.09)

    (4)选取“全纪录与引用的参考文献”,并统一保存为制表符分隔文件(tab delimited)。

    2、数据清洗准备工作:编制词表

    (1)需要清洗哪些词?

    A. 人名消歧(本例不需要)

    B. 通用性强、无意义的词(主要针对标题、摘要等,关键词一般不需要):vosviewer内部提供相应的算法,可以计算出该词的通用性,但仅适应于文本数据的分析,在文献著录信息中不能使用。

    C. 含义相同、表述相异:缩写词(如social network analysis和SNA)、中英混用、单复数(citation/citations)、同义词、近义词等。

    (2)如何建立词表

    因为建立词表的成本较高,如果经常做某个领域的分析或严谨性要求较高,可以建立相对完备的词表,一般来说,可以先将数据导入VOSviewer进行初步观察和统计,如果发现干扰词汇较多,可以只针对该批文献集建立词表。本例利用OpenRefine对关键词字段进行聚类,主要对出现频次较高、存在单复数或词性不同的关键词进行了合并,形成如下的用于数据清洗的词表:

    image
    3、数据分析与图谱解读

    (1)导入数据,并进行功能选择

    A. 分析单元类型:co-occurrence-all keyword(author keyword+keyword plus)

    B. 计数方式:full counting

    C. 节点过滤(过滤标准为节点的出现频次≥3、节点度排名前800,大约占总节点的10%) (2)图谱调整与解读

    调整布局和聚类参数等获得效果较好的聚类及布局,并导出最终的数据结合图谱进行分析。

    A. 聚类视图

    image
    可以看出,cluster1主要针对专利技术的计量,基于国家、企业层面,研究技术创新、研发及流动规律;cluster2主要是计量理论及方法的研究,其中,方法上侧重网络分析、引文分析、共词分析、知识图谱等,研究对象包括领域结构、发展演变规律等;cluster3是对计量指标的研究,基于引文的数量关系来构建和检验指标,从而运用到具体的领域,如排名、科研评价等;cluster4是对针对传统科学出版物(期刊、论文)的评价研究,除对基于引文的评价方法外,替代计量等新兴指标频次也较高,此外,对科学出版物的评价也围绕不同学科和领域展开;cluster5是针对(国家、大学、学者)科研产出的评价研究;cluster6是对科研合作的研究,主要运用网络分析的相关方法,如社会网络分析中各项测度指标,研究的层面包括学者层次,也涉及国际层面,包括简单网络分析,也涉及复杂网络,不仅设计合作的结构特征,还包括合作结构的演化,cluster7是对跨学科/领域现象的测度研究,该领域研究规模较其他领域相对较小,学者主要纳米技术领域切入对学科交叉型进行测度。

    B. 密度视图

    image
    密度视图可以发现某一研究领域的研究重点和热点,可以看到信息计量领域的研究重点包括引文分析、科研产出评价、科研合作、计量指标、网络分析和专利技术创新。

    此外,可以通过时间映射的标签视图探索该领域研究演化情况。

    (二)基于中文多源数据分析情报学近三年研究小团体

    大部分文献网络可视化的软件主要分析单一来源数据为主,借助自定义网络数据的功能,可以分析来源不同的网络,比如多个数据库的融合,下面以情报学主要的四本中文核心期刊:情报学报(万方收录)、情报科学(CNKI收录)、情报理论与实践(CNKI和万方收录)、情报资料工作(CNKI和万方收录)近三年的发文为数据来源,建立作者合作网络,进行国内情报学研究小团体发现。

    1、数据来源介绍

    (1)检索平台:中国知网和万方

    (2)检索式:中国知网(JN=‘情报科学’+‘情报理论与实践’+‘情报资料工作’);

    万方(刊名:情报学报);起始年:2015 结束年:2017

    (3)检索结果:中国知网(情报科学;情报理论与实践;情报资料工作):2550篇;万方(情报学报):335篇

    2、数据格式转换

    将数据导入excel后筛选出作者字段,然后利用Gephi或bibexcel等工具建立作者的共现网络,生成节点数据和关系数据,并建立VOSviewer的分析文件:AU_map.file和AU_net.file,其中map文件中为作者id、标签和发文数量,net为作者的合作关系,导出共现数据后保存在txt文件中。

    image
    3、数据分析与图谱解读

    image
    image
    image
    image
    (三)基于被引文献DOI分析信息计量领域的知识基础

    在待分析的文献集中,引文的格式为一般为:(作者, 出版年, 来源期刊信息, DOI)因此在进行共被引分析时只能从被引作者和被引期刊来推测引文的主题(知识基础),而VOSviewer最新版本推出的DOI数据分析一定程度上可以弥补之前对引文进行主题分析的限制。但该功能存在一定局限,一是并不是所有文献都有DOI,分析前需要检测样本数据的缺失情况,二是VOSviewer在文本数据主题词提取算法上还存在很大不足,三是VOSviewer在利用DOI进行文本分析时耗时较大,很多情况下还需要扩容。因此下面的案例主要用来说明该功能的用法,结果上还有待考量。

    1、数据来源介绍

    采用案例一中的数据集

    2、数据转换与分析

    (1)利用VOSviewer的共被引分析功能,提取出所有的参考文献及被引数量M(dataframe);

    (2)将M导入R提取参考文献中的DOI信息;

    3874篇文献共引用63543篇文献,但仅有29628篇文献有DOI数据,这里以被引量在前5%(1500篇)的文献作为待分析文献集

    (3)将所有参考文献的DOI保存为txt文件,利用VOSviewer的文本数据分析功能进行分析。

    image
    六、参考资源

    1、Manual:VOSviewer_1.6.6;VOSviewer_1.6.5

    VOSviewer的官方指南手册,功能介绍详细

    2、Eck N J V, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping[J]. Scientometrics, 2010, 84(2):523.

    VOSviewer作者发布的软件开发论文,对软件的处理流程和实现技术进行了介绍,另外也可以查一下作者的其他论文,对VOSviewer可以有更好的理解。

    3、Ding Y, Rousseau R, Wolfram D. Measuring Scholarly Impact: Methods and Practice[M]. Springer Publishing Company, Incorporated, 2014.

    Chapter 13 Visualizing Bibliometric Networks对主要科学知识图谱软件进行了总结和归纳。

    4、Aria M, Cuccurullo C. bibliometrix : An R-tool for comprehensive science mapping analysis[J]. Journal of Informetrics, 2017, 11(4):959-975.

    虽然是对bibliometrix的介绍,但可以深入了解知识图谱类软件的处理流程。

    5、Börner K, Chen C, Boyack K W. Visualizing knowledge domains[J]. Annual Review of Information Science & Technology, 2003, 37(1):179-255.

    6、Chaomei, Chen. Science Mapping:A Systematic Review of the Literature[J]. 数据与情报科学学报(英文), 2017(2):1-40.

    【参考】

    [1] 荷兰莱顿大学科技研究中心:https://www.cwts.nl/

    [2] Eck N J V, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping[J]. Scientometrics, 2010, 84(2):523.

    [3] VOSviewer官网:http://www.vosviewer.com/

    作者:毛里里求斯
    链接:https://www.jianshu.com/p/c1859e8e5937
    来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    展开全文
  • 以CNKI中文核心和CSSCI期刊为数据来源,检索收集有关我国植物新品种权研究的相关文献,运用共词分析社会网络分析方法,从文献期刊来源、作者、发文机构等方面进行统计分析。研究认为,目前我国植物新品种权领域的研究...
  • 2021年二季度重大舆情热点盘点分析

    千次阅读 2021-07-12 11:23:57
    本报告特对2021年第二季度(4.1-6.30)具有代表性的网络舆情热点和事件进行了分析和汇总,希望可以助力于大家了解二季度网络舆情热点事件和展开二季度舆情分析工作。 2021年第二季度网络舆情事件分析报告合集 4月...
  • GIS可视化—热力图制作与热点分析(一)

    万次阅读 多人点赞 2018-03-31 21:52:27
    讲师:张海平老师(高级城市数据分析师),本文对讲解PPT中的内容进行总结概括,并方便自己以及他人更加直观的了解与学习热力图方面的知识,未经博主允许请勿转载,如有侵权请联系博主。相关学习资源(持续更新) ...
  • 国内开放存取的研究热点_基于共词分析的文献计量研究
  • 社会服务行业周报:各地景区餐企相继复工、疫情催生文旅新热点.pdf
  • 蚁坊软件在这里为各位汇总了一份2020年下半年教育舆情网络热点话题及事件分析报告,供参考。 2020年下半年教育热点事件舆情分析研判报告整合,如下: 教育热点一:#清华学姐#事件 热点舆情事件简述:2020年11月20日...
  • 企业社会责任与企业价值的相关性分析--以医药制造业为例,邬珊珊,郑立群,企业社会责任是当前社会热点问题,对企业社会责任的履行与企业价值之间的相关性尚未形成统一论断。本文基于2007-2011年深沪两市58�
  • 关于大数据的八大热点问题

    千次阅读 2013-12-04 10:46:11
    这一问题综合了两个问题,即大数据的基本内涵与数据的科学问题。前者关注的是大数据的基本定义和基本结构。迄今为止,什么是大数据,在产业界、学术界并没有形成一个公认的科学定义,大数据的内涵与外延也缺乏清晰的...
  • 社会资本对技术创新的影响是学术界和实践界关注的热点问题之一,然而其路径和机理仍不明确。为此,试图通过一个模型分析了知识创新为中介的社会资本对技术创新的影响。首先,借鉴场论,提出了以知识创新为中介的社会资本...
  • 我国各地区能源效率存在明显的差距,如何缩小地区能源效率差距成为了能源经济领域的热点问题。本文依据2000 - 2010 年中国30省面板数据,运用空间误差条件β收敛模型分析了技术扩散对全社会能源效率收敛的影响,研究...
  • 社会服务行业周报(第37周):高铁香港段开通在即,“高铁+”成旅游热点.pdf
  • 如何评价并实施企业社会责任,中国理论界与产业界都在努力从国际视角关注这一热点问题并努力提升理念和改善企业行为。企业注重社会责任,应不是把它当作负担来承担,而应是把它当作一种利益来追求,应从经济增长的产业...
  • 当今社会需要的,绝不是只会写代码的码农,而是技术过硬又懂业务的,可以通过数据分析,优化代码解决实际业务问题的复合性人才! 无论你做研发,系统架构,还是做产品,运营,甚至是管理,数据分析都是其基本功,...
  • 社会网络的分析工作包括两个方面:一方面,使用主成份分析来帮助划分人物关系网络,并将划分结果与对应的人物属性相比较,结果表明人物职业较之籍贯和性别等属性更符合来自web社会网络中的结构划分;另一方面,...
  • 南方网讯 2月7日下午,广东省公安厅在南海大沥厅民警培训中心召开厅机关社会管理创新工作座谈会。省委常委、政法委书记、公安厅长梁伟发在会上希望全省广大民警加强学习,努力提高个人修养,并在会上代表厅党委向...
  • 社会化网络分析

    千次阅读 2014-05-23 17:24:29
    利用共词方法可以概述研究领域的研究热点,横向和纵向分析领域知识的发展过程、特点以及领域之间的关系。同时也可以扩展检索,帮助用户检索信息等等。  首先构建词的共现矩阵,做成词共现网络,参考 《地球...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 17,833
精华内容 7,133
关键字:

如何分析社会热点问题