精华内容
下载资源
问答
  • 国外近十年深度学习的研究现状与发展趋势——基于引文分析共词矩阵的知识图谱分析.pdf
  • 是用excel分析论文关键词的共现矩阵,提取高频关键词,分析论文研究热点。
  • 相关矩阵到相似矩阵--Ochiia系数

    千次阅读 2016-01-31 19:09:19
    共词矩阵到相似矩阵:用Ochiia系数 spss:分析---相关---距离---余弦 Analyze-------correlate---------distance 出现的对话框,勾选similarity,再点击“measure”,选择interval中的“cosine”,其他的就按...

    共词矩阵到相似矩阵:用Ochiia系数


    spss:分析---相关---距离---余弦

    Analyze-------correlate---------distance
    出现的对话框,勾选similarity,再点击“measure”,选择interval中的“cosine”,其他的就按自己的想法选就好。然后得出的输出文件里,就有获得的相关矩阵表格,放在表格数据单元格,右击--------select table----------复制,转到excel或者spss都可以。

    展开全文
  • 元胞自动机研究现状的可视化分析,孙传谆,郑新奇,本文通过检索CNKI数据总库上有关元胞自动机的文章,提取这些文章的高频关键词,生成共词矩阵,然后在共词因子分析与聚类分析基础�
  • 共词网络方法在知识网络研究中应用普遍,最为常见的就是利用论文关键词及其共现关系构建共词矩阵,进而映射为共词网络并可视化,从而来揭示某一学科某一领域某一主题的研究热点与趋势、知识结构与演化等。...

    前言

    前两天简单地做了一个文本挖掘实战分析,里面提到了共现分析,但是并没有完成,有些遗憾

    在这里插入图片描述
    经过查阅资料,最终还是粗糙地完成了这个分析

    对于共现分析

    共词网络方法在知识网络研究中应用普遍,最为常见的就是利用论文关键词及其共现关系构建共词矩阵,进而映射为共词网络并可视化,从而来揭示某一学科某一领域某一主题的研究热点与趋势、知识结构与演化等。引自:共词网络的结构与演化-概念与理论进展

    其基本含义:在大规模语料中,若两个词经常共同出现(共现)在截取的同一单元(如一定词语间隔/一句话/一篇文档等)中,则认为这两个词在语义上是相互关联的,而且,共现的频率越高,其相互间的关联越紧密。

    在这里插入图片描述
    图片来自:CiteSpace关键词共现图谱含义详细解析

    两个词共同出现的次数越多,网络图中两个词语节点连线越粗,也就是共现的次数为边上的权值

    其次,单个词出现的次数越多,在网络图中节点越大,若一个词与许多词均有联系,则这个词会在网络图的中心区域。

    在文本挖掘中,有共现矩阵的概念,如下

    ·I like deep learning.
    ·I like NLP.
    ·I enjoy modeling.
    

    在这里插入图片描述


    Python 代码实现

    数据采用的还是 大江大河2弹幕数据

    已经对数据做了文本去噪、去重、过滤等清洗

    处理好的弹幕数据.xlsx
    在这里插入图片描述

    import pandas as pd
    import numpy as np
    import os
    import jieba 
    
    def my_cut(text): 
        
        my_words = ['大江大河']    
        for i in my_words:
            jieba.add_word(i)
            
        # 加载停用词
        stop_words = [] 
        with open(r"C:\\Users\\Administrator\\Desktop\\停用词.txt", 'r',encoding='utf-8') as f:
           lines = f.readlines()
           for line in lines:
               stop_words.append(line.strip())
        # stop_words[:10]
               
        return [w for w in jieba.cut(text) if w not in stop_words and len(w)>1]
    
    
    
    def str2csv(filePath, s, x):
        '''
        将字符串写入到本地csv文件中
        :param filePath: csv文件路径
        :param s: 待写入字符串(逗号分隔格式)
        '''
        if x=='node':
            with open(filePath, 'w', encoding='gbk') as f:
                f.write("Label,Weight\r")
                f.write(s)
            print('写入文件成功,请在'+filePath+'中查看')
        else:
            with open(filePath, 'w', encoding='gbk') as f:
                f.write("Source,Target,Weight\r")
                f.write(s)
            print('写入文件成功,请在'+filePath+'中查看')
    
    
    
    def sortDictValue(dict, is_reverse):
        '''
        将字典按照value排序
        :param dict: 待排序的字典
        :param is_reverse: 是否按照倒序排序
        :return s: 符合csv逗号分隔格式的字符串
        '''
        # 对字典的值进行倒序排序,items()将字典的每个键值对转化为一个元组,key输入的是函数,item[1]表示元组的第二个元素,reverse为真表示倒序
        tups = sorted(dict.items(), key=lambda item: item[1], reverse=is_reverse)
        s = ''
        for tup in tups:  # 合并成csv需要的逗号分隔格式
            s = s + tup[0] + ',' + str(tup[1]) + '\n'
        return s
    
    
    def build_matrix(co_authors_list, is_reverse):
        '''
        根据共同列表,构建共现矩阵(存储到字典中),并将该字典按照权值排序
        :param co_authors_list: 共同列表
        :param is_reverse: 排序是否倒序
        :return node_str: 三元组形式的节点字符串(且符合csv逗号分隔格式)
        :return edge_str: 三元组形式的边字符串(且符合csv逗号分隔格式)
        '''
        node_dict = {}  # 节点字典,包含节点名+节点权值(频数)
        edge_dict = {}  # 边字典,包含起点+目标点+边权值(频数)
        # 第1层循环,遍历整表的每行信息
        for row_authors in co_authors_list:
            row_authors_list = row_authors.split(' ') # 依据','分割每行,存储到列表中
            # 第2层循环
            for index, pre_au in enumerate(row_authors_list): # 使用enumerate()以获取遍历次数index
                # 统计单个词出现的频次
                if pre_au not in node_dict:
                    node_dict[pre_au] = 1
                else:
                    node_dict[pre_au] += 1
                # 若遍历到倒数第一个元素,则无需记录关系,结束循环即可
                if pre_au == row_authors_list[-1]:
                    break
                connect_list = row_authors_list[index+1:]
                # 第3层循环,遍历当前行词后面所有的词,以统计两两词出现的频次
                for next_au in connect_list:
                    A, B = pre_au, next_au
                    # 固定两两词的顺序
                    # 仅计算上半个矩阵
                    if A==B:
                        continue
                    if A > B:
                        A, B = B, A
                    key = A+','+B  # 格式化为逗号分隔A,B形式,作为字典的键
                    # 若该关系不在字典中,则初始化为1,表示词间的共同出现次数
                    if key not in edge_dict:
                        edge_dict[key] = 1
                    else:
                        edge_dict[key] += 1
        # 对得到的字典按照value进行排序
        node_str = sortDictValue(node_dict, is_reverse)  # 节点
        edge_str = sortDictValue(edge_dict, is_reverse)   # 边
        return node_str, edge_str
    
    
    if __name__ == '__main__':
        os.chdir(r'C:\Users\Administrator\Desktop')
        filePath1 = r'C:\Users\Administrator\Desktop\node.csv'
        filePath2 = r'C:\Users\Administrator\Desktop\edge.csv'
        # 读取csv文件获取数据并存储到列表中
        df = pd.read_excel('处理好的弹幕数据.xlsx')
        df_ = [w for w in df['弹幕'] if len(w)>20]
        co_ist = [ " ".join(my_cut(w)) for w in df_] 
        # 根据共同词列表, 构建共现矩阵(存储到字典中), 并将该字典按照权值排序
        node_str, edge_str = build_matrix(co_ist, is_reverse=True)
        #print(edge_str)
        # 将字符串写入到本地csv文件中
        str2csv(filePath1,node_str,'node')
        str2csv(filePath2,edge_str,'edge')
    

    在这里插入图片描述

    继续处理,这里只要 Weight 大于 3 的数据

    import pandas as pd
    edge_str = pd.read_csv('edge.csv',encoding='gbk')
    edge_str.shape
    
    edge_str1 = edge_str[edge_str['Weight']>3]
    edge_str1.shape
    
    Source = edge_str1['Source'].tolist()
    Target = edge_str1['Target'].tolist()
    co = Source + Target
    co =list(set(co))
    
    node_str = pd.read_csv('node.csv',encoding='gbk')
    #node_str
    
    node_str=node_str[node_str['Label'].isin(co)]
    node_str['id']=node_str['Label']
    node_str = node_str[['id','Label','Weight']] # 调整列顺序
    #node_str
    
    node_str.to_csv(path_or_buf="node.txt", index=False) # 写入csv文件
    edge_str1.to_csv(path_or_buf="edge.txt", index=False) # 写入csv文件
    

    最终得到的数据

    在这里插入图片描述
    在这里插入图片描述

    导入Gephi 制作网络图

    制作网络图的过程 可参见 【绘制关系网络图】Gephi 入门使用

    最终效果

    在这里插入图片描述

    展开全文
  • 社会化网络分析

    2014-05-23 17:24:00
    共词分析是对关键词共现现象进行研究的一种重要方法。它是对一组词在同一篇文档中出现的次数做统计,以此为基础对词进行聚类分析,从而显示这些词的亲疏关系,进一步分析分析这些词所代表的学科和主题的结构变化。...

         共词分析是对关键词共现现象进行研究的一种重要方法。它是对一组词在同一篇文档中出现的次数做统计,以此为基础对词进行聚类分析,从而显示这些词的亲疏关系,进一步分析分析这些词所代表的学科和主题的结构变化。利用共词方法可以概述研究领域的研究热点,横向和纵向分析领域知识的发展过程、特点以及领域之间的关系。同时也可以扩展检索,帮助用户检索信息等等。

         首先构建词的共现矩阵,做成词共现网络,参考《地球物理学部分术语共现图》。接下来分析该网络  

         节点中心性是指网络中每个词在网络中处于什么地位。中心势反映整个词网中各个节点的差异性程度。由于计算方法的不同,节点中心度分为点度中心度,中间中心度和接近中心度。网络的中心势也分为点度中心势、中间中心势和接近中心势。

         

    1.点度中心度

    点度中心度反映某个关键词与其他关键词是否共现在某篇文档中。点度中心度越高,反映其在网络中的地位越高,越有可能成为主题研究中的热点。

    2. 中间中心度

    中间中心度指网络中某个关键词影响其他关键词出现在一片文档中的能力的大小。中间中心度强的词影响其他词共现的能力较强。如果一个词处于其他词联通的路径上,可以认为此词居于重要的地位。

    3.  接近中心度

    接近中性度反映网络中某个节点不受其他节点“控制”的能力。在词网中表示某个关键词语其他关键词共现的几率大小。接近中心度越小,表示某个关键词越容易与网络中的关键词出现在同一篇文档中。

    4.  点度中心势

    点度中心势反映网络的集中程度。

    5.  中间中心势

    中间中心势反映网络中中间中心度最高的节点的中间中心度与其它节点节点的中间中心度的差距。差距越大,则网络的中间中心势越高,表示该网络中的节点可能分为多个小团体而且过于依赖于某个节点的传递关系。中间中心势越低,反映当前的主题还没有形成一个核心。









    转载于:https://www.cnblogs.com/cl1024cl/p/6205083.html

    展开全文
  • 整理了山东省海洋生态文明的54项相关政策,构建了政策关键词的共词矩阵,并采用共词分析方法进行了定量分析。 通过对政策网络中心性,政策主题组和结构漏洞的测量,分析了政策内容的协调性和政策要点的中心性。 ...
  • 谭浩强教授创造了3个世界纪录:(1)20年来他(及和他人合作)编著出版了130本计算机著作,此外主编了250多本计算机书籍,是出版科技著作数量最多的人。(2)他编著和主编的书发行量超过4500万册,是读者最多的...
  • 以前论文写作中做一个共现矩阵、二模矩阵、聚类图谱、词云图、邻接表、相异矩阵、同义批量合并、研究热点追踪等分析需要一小时、一天、对于小白甚至需要一周、一个月。 但是利用COOC这款软件,你会体会到什么叫...

    在这里插入图片描述

    以前论文写作中做一个共现矩阵、二模矩阵、聚类图谱、词云图、邻接表、相异矩阵、同义词批量合并、研究热点追踪等分析需要一小时、一天、对于小白甚至需要一周、一个月。

    但是利用COOC这款软件,你会体会到什么叫方法比努力更重要

    好的工具会让你事半功倍,原本需要一天的工作量,现在你只需要一秒钟
    COOC软件介绍:
    优势:一键绘制各种高端图谱
    目前功能:
    中文数据库去重与数据清洗
    英文数据库去重与数据清洗
    批量合并同义词删除无意义词
    共现矩阵(关键词、作者、机构、国家等)
    完全共现矩阵制作(对角线为频次)
    邻接表
    共现(合作)网络图
    社区探测图(聚类)
    相异矩阵+频次统计
    分词(可自定义)
    词云图
    一键绘制研究热点追踪图
    历时词云图
    发文折线图
    发文累积折线图
    交互图(动态可视化)
    期刊、关键词、作者、机构柱形图
    基于主题的耦合矩阵一键制作
    二模矩阵一键制作:适用于文献计量、知识图谱,同时适用于董事关系网络、贸易、物流、地理等学科二模网络
    词篇矩阵/作者篇矩阵/机构篇矩阵/国家篇矩阵…
    爬取国家社科基金数据库
    余弦相似度矩阵制作
    jaccard相似度矩阵制作
    相关相似度矩阵制作
    欧式距离矩阵制作
    标准化矩阵制作
    立体饼状图绘制
    雷达图绘制
    风向玫瑰图绘制
    历时雷达图
    历时风向玫瑰图
    历时散点图…

    COOC科学知识图谱软件已累计服务5万+用户,平均每篇论文可为科研工作者节约96+小时!

    公众号后台回复“COOC”获取软件方式

    如利用本团队开发的软件需在论文或报告中给予引用说明!

    软件引用格式
    例子

    本文利用Co-Occurrence6.7(COOC6.7)[1]软件进行同义词合并、频次统计、共现矩阵、相异矩阵、词篇矩阵、二模矩阵、耦合矩阵、谱系图、聚类图、分词…

    参考文献
    [1] 学术点滴,文献计量. COOC一款用于文献计量和知识图谱绘制的新软件[EB/OL].(2020-01-12)[2020-08-16].https://mp.weixin.qq.com/s/8RoKPLN6b1M5_jCk1J8UVg.

    其中【2020-08-16】为你引用的时间
    其他本平台开发的软件引用格式于此类似

    关注公众号【学术点滴】获取更多资讯。

    展开全文
  • 读Glove论文笔记

    2020-09-18 10:29:26
    文章目录1.Glove 背景介绍1.论文的背景知识2. 论文的研究成果3.Glove历史意义2.论文精度1.论文结构2. GloVe 模型3. 公式推导3. 实验结果分析4.论文总结1.关键点2....《Glove: Global Vectors for Word ...词共
  • 除框架外,AnyQ的所有功能都是通过插件形式加入,用户自定义的插件很容易加到AnyQ系统中,只需实现对应的接口即可,如自定义词典加载、Question分析方法、检索方式、匹配相似度、排序方式等,真正实现可定制和插件化...
  • 《C#开发实例大全(基础卷)》筛选、汇集了C#开发从基础知识到高级应用各个层面约600个实例及源代码,每个实例都按实例说明、关键技术、设计过程、详尽注释、秘笈心法的顺序进行了分析解读。全书分6篇25章,主要...
  • 《璇玑图》八百四十字,纵横各二十九字,纵、横、斜、交互、正、反读或退一字、迭一字读均可成诗,诗有三、四、五、六、七言不等,目前有人统计可组成七千九百五十八首诗。听清楚哦,是7958首。 第6章树 149 6.1...
  • 《璇玑图》八百四十字,纵横各二十九字,纵、横、斜、交互、正、反读或退一字、迭一字读均可成诗,诗有三、四、五、六、七言不等,目前有人统计可组成七千九百五十八首诗。听清楚哦,是7958首。 第6章树 149 6.1...
  • 大话数据结构

    2019-01-10 16:35:22
    《璇玑图》八百四十字,纵横各二十九字,纵、横、斜、交互、正、反读或退一字、迭一字读均可成诗,诗有三、四、五、六、七言不等,目前有人统计可组成七千九百五十八首诗。听清楚哦,是7958首。 第6章树 149 6.1...
  • 大话数据结构 程杰

    2018-09-01 10:06:43
    《璇玑图》八百四十字,纵横各二十九字,纵、横、斜、交互、正、反读或退一字、迭一字读均可成诗,诗有三、四、五、六、七言不等,目前有人统计可组成七千九百五十八首诗。听清楚哦,是7958首。 第6章树 149 6.1...
  • 2.7.1 事后统计方法 24 2.7.2 事前分析估算方法 25 2.8 函数的渐近增长 27 2.9 算法时间复杂度 29 理解大O推导不算难,难的其实是对数列的一些相关运算,这考察的更多的是数学知识和能力。 2.9.1 算法时间复杂度...
  • 大话数据结构-程杰

    2014-07-13 23:45:52
    《璇玑图》八百四十字,纵横各二十九字,纵、横、斜、交互、正、反读或退一字、迭一字读均可成诗,诗有三、四、五、六、七言不等,目前有人统计可组成七千九百五十八首诗。听清楚哦,是7958首。 第6章 树 149 ...
  • PDF格式扫描版,全书分为6篇25章,888页。2011年1月出版。 注:原电子版图书无书签,为阅读方便,本人重新排列页码并添加了详细完整的书签。 全书体积较大,压缩打包成3部分,这是第1部分。 注:本系列图书的第I...
  • PDF格式扫描版,全书分为6篇25章,888页。2011年1月出版。 注:原电子版图书无书签,为阅读方便,本人重新排列页码并添加了详细完整的书签。 全书体积较大,压缩打包成3部分,这是第2部分。 注:本系列图书的第I...
  • PDF格式扫描版,全书分为6篇25章,888页。2011年1月出版。 注:原电子版图书无书签,为阅读方便,本人重新排列页码并添加了详细完整的书签。 全书体积较大,压缩打包成3部分,这是第3部分。 注:本系列图书的第I...

空空如也

空空如也

1 2
收藏数 25
精华内容 10
关键字:

共词矩阵分析