精华内容
下载资源
问答
  • 共词分析

    万次阅读 多人点赞 2017-10-16 11:01:09
    一、共现分析概念及主要类型 “共现”指文献的特征项描述的信息共同出现的现象,这里的特征项包括文献的外部和内部特征,如题名、作者、关键词、机构等。而“共现分析”是对共现现象的定量研究,以揭示信息的内容...

     一、共现分析概念及主要类型

    “共现”指文献的特征项描述的信息共同出现的现象,这里的特征项包括文献的外部和内部特征,如题名、作者、关键词、机构等。而“共现分析”是对共现现象的定量研究,以揭示信息的内容关联和特征项所隐含的知识。常见的共现类型包括:

    类型

    含义

    首次提出者

    对应论文

    文献耦合

    两篇或多篇文献同时引证一篇论

    M.M.Kessler(1963)

    Kessler M M. Bibliographic coupling between scientific papers[J]. Journal of the Association for Information Science & Technology, 1963, 14(1):10-25.

    文献同被引

    两篇或多篇文献被同一篇文献引用

    Henry Small(1973)

    Smal lH.Co-citation in the scientific literature : A

    new measure of the relationship between two documents [J]. Journal of the American Society for Information Science ,

    1973,24(4):265-269.

    共词

    词汇对同时出现在同一文献中

    M.Callon、J.Law、A.Rip(1986)

    Callon M, Law J, Rip A. Mapping the Dynamics of Science and Technology[M]// Mapping the dynamics of science and technology :. The Macmillan Press, 1986:815.

    作者同被引

    两篇或多篇文献同时引证某一作者

    White、Griffith(1981)

    White H D, Griffith B C. Author cocitation: A literature measure of intellectual structure[J]. Journal of the Association for Information Science & Technology, 1981, 32(3):163-171.

    共链

    两个网页同时被第3个网页链接或两个网页同时拥有指向第3个网页的链接

    Ray Larson(1996)

    Larson R R. Bibliometrics of the World Wide Web: An Exploratory Analysis of the Intellectual Structure of Cyberspace.[C]// Asis Meeting. 1996:71-78.

    网络共词

     

    Kipp(2006)

    Kipp M E I, Campbell D G. Patterns and Inconsistencies in Collaborative Tagging Systems: An Examination of Tagging Practices[J]. Proceedings of the American Society for Information Science & Technology, 2006, 43(1):1–18.

    作者同被引

     

    Leydestorff(2006)

    Leydesdorff L, Vaughan L. Co-occurrence matrices and their applications in information science: Extending ACA to the Web environment[M]. John Wiley & Sons, Inc. 2006.


    Frombibliographic coupling to co-citation analysis: a citationist's tribute toBelver C. Griffith(Garfield,2001)

     

    二、常见共现分析:共词分析

    1、概念

    基本原理是通过统计文献集中词汇对或名词短语的共现情况,来反映关键词之间的关联强度,进而确定这些词所代表的学科或领域的研究热点、组成与范式,横向和纵向分析学科领域的发展过程和结构演化。该方法前提假设是:词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可反映主题内容的亲疏关系。

    2、共词分析过程


    (1)确定分析的问题:热点问题、领域结构、发展过程及特点、领域之间的关系

    (2)词源选择与概念术语提取(确定分析单元的来源并进行术语提取):共词分析的分析单元(对象)是从分析数据集中选取表征能力较强的词。早期分析单元通常从数据库(如WOS、CNKI等)中提取已有的结构化词汇(如关键词、主题词),随着自然语言处理(NLP)技术的兴起,开始从结构化数据的标题、摘要、全文及非结构化文本数据中提取有意义的词。在不同类型文献单元的选择和术语规范化处理过程中,主要问题是如何借助自然语言处理实现关键词的自动抽取和规范标引,而在术语表征差异性问题上更多的还是需要考虑如何对术语的差异性进行度量。

    不同类型的文献单元的选取

    从关键词、主题词提取:易出现标引者效应,关键词(作者自由标引)、主题词(来源受控词表,但也存在标引用词的选择问题)

    从标题、摘要提取:一是作者为引起读者的兴趣会故意选取具有时代感、学术感的标题词,存在一定的“观众效应”[①],同时,对标题和摘要内容进行细粒度分词时,很可能会破坏词汇原本的含义;二是汉语词汇中普遍存在的同、近义词现象,同一概念在不同的标题、摘要中可能使用不同的词语进行表示。

    从全文中提取:需要借助于机器学习算法融合语言学信息抽取关键词,研究难度和代价较大,抽取高质量的关键词更是一个挑战,因此在实际研究中较少采用。

    术语的规范化

    泛用(含义相同,但表述相异):同义词、近义词、缩写词及中英混用

    单义性:术语只依附于某一特定专业或学科范围,脱离其专业学科来笼统地使用术语,必然会造成对术语的曲解,如“文件” 在档案学中和信息技术学科中是两个不同的概念

    术语表达的粒度:外延过宽,语义表达的过于空泛,无法解释文献具体的研究内容,甚至还会增加共词分析中共词矩阵的维数,给后续数据处理带来干扰,需要对术语进行细化

    术语历时变化:术语概念内涵与外延会随着时间的推移发生动态性变迁,名称也随之发生变化,出现一个术语有多种含义或存在多种理解与解释的情况。对术语的使用,也要从历时性角度考证术语的词源,追溯术语的历史演变与动态性变迁,在不同的时期把握术语的不同概念。

    新术语构造的理据和规范问题:社会与科学的不断发展,与

    之同步会产生大量对新事物、新事件以及新现象定义的新术语。新术语的构建不能随意标引,必须规范化,依据一定的构造理据,尽可能选自其他受控词表或比较权威的参考书目,使之词性规范、概念明确,并符合科学性、通用性的需求。

    术语表征差异化

    传统共现分析假设术语的独立性,不考虑术语之间表达的差异性,而忽略关键词之间的权重差异必然导致最终的共词分析效果存在一定程度的失真。考虑文献的篇章语义结构以及术语“同量不同质”的现象,在一定程度上能够很好地改善共词分析的结果。从标引源差异、文献属性差异以及词重要性差异等不同角度进行加权共词分析方法是必要的、合理的。通过构建不同的映射模型,可以对概念之间的不同关系进行强化或衰减,从而展现出不同的研究目的。

     其中,术语规范化方法主要有两种:

    A. 基于受控词典或分类词表进行术语规范:可借助于词表对收集到的术语进行规范,或直接借助已规范的术语如主题词、叙词表进行共现分析。

    B. 基于人工干预方式的规范处理:借助自我的经验制定相应的规则、方法来实现人工干预处理

    (4)核心关键词选定

    受工具、人力的限制以及结果分析和呈现的需要,研究者通常只选取部分关键词作为共词分析的对象。主要有两种方式选取:

    一是指标筛选:例如根据词频高低、节点中心性[②]、h指数[③]、词共现强度[④]来遴选;

    二是模型筛选:如词汇链[⑤]、核心-边缘结构模型[⑥]、K-core分解[⑦]等,将术语集合转化成网络模型实现术语的抽取。但由于在术语构建的网络中,上述指标与词频仍然线性相关,因而抽取的术语与高频词并无太大差异。

    (5)词汇共现关系度量(术语之间的相似性计算并构建相关矩阵)

    传统共现分析通常基于文献中关键词对的共现性来构建共词矩阵(一般不直接选用词对频率的绝对值作为量度指标,通常将共现频率其进行包容化处理,如包容指数法、临近指数法、相互包容系数法等)。基于词频共现频率的方法缺乏对词汇间语义关系和关系强度的解释,为此,学者借助RDF三元组对关联数据进行细粒度和语义关联化等方法来改善。

    (6)共词分析中的统计方法

    共现矩阵的计算是共词分析的重要一步,在此基础上采用不同的统计学方法,揭示共词中的信息,常用的统计分析方法有:聚类、关联规则、词频、突发伺监测、因子分析、贝叶斯分类等。

    (7)对共词结果的可视化展示

    类团关系图:将类团间关系的强弱以连接线的粗细表示,关系越强,连线越粗,通常只显示类团间的关系,不显示类团内成员之间的关系,相对比较简单。

    战略坐标图[⑧]:以向心度(横坐标)和密度(纵坐标)为参数绘制成的二维坐标,用来表示某一研究领域内部联系情况和领域间相互影响的情况。其中,向心度表示领域间互相影响的强度,密度表示某一领域内部联系强度。

    聚类谱系图[⑨],也称聚类树图,其用逐级连接的方式把距离相近的主题词或主题连接起来,直至并为一个大主题。

    多维尺度图谱[⑩]:利用平面距离展示出词间亲疏关系,能够判断出某主题在学科领域中的位置。

    社会网络分析图谱[11]:通过节点-链接图直观、形象地反映词间联系的强弱,快速定位核心词和边缘词。

    3、共词分析的主要类型

    (1)共词聚类分析法

    词对在同一篇文献出现的频率,反映词对间关系紧密的程度。对共词关系网络中的词与词之间的距离进行数学运算,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。

    (2)共词关联分析法

    关联规则是描述一个事物中物品同时出现的规律的知识模式,即通过量化的数据描述物品A的出现对物品B的出现有多大影响。例如在一篇有关某病的药物治疗文献中,对该文的标引时,除了有“病A/药物治疗”的主题词外,“药B/治疗应用”的主题词也很有可能同时存在,以表达药B有治疗某病A的功效。共词关联分析以此为原理,通过关联统计方法,揭示主题词间的依存关系。

    (3)共词词频分析法

    一种揭示或表达文献核心内容的关键主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量法,通常将共现聚类和共词词频分析相互结合。

    (5)突发词监测法

    关注焦点词相对增长率突然增长的词,基于单个词的词频增长率变化更有可能涉及到领域局部热点的变化。

    4、共词分析法的应用


    (1)基于词的应用研究:解释某一领域的研究主题,确定研究领域的知识结构、探索研究领域内的热点问题:方法主要是多元统计分析(因子分析、聚类分析、多维尺度分析)和社会网络分析等。

    (2)基于主题的应用研究:揭示某一研究领域内研究主题之间的关系,进一步揭示研究主题所处的发展阶段,方法主要是战略坐标

    (3)时间维度上的应用研究,即在第二层应用研究的基础上加上时间标签,考察某一研究领域内研究主题发展的历史脉络及其子领域的演进态势等;

    (4)拓展应用研究:通过词间关系的数据挖掘来进行知识发现[12][13]、利用共词分析结果拓展检索领域[14]、进行系统开发[15]等。

     

     

    [1] 傅柱, 王曰芬. 共词分析中术语收集阶段的若干问题研究[J]. 情报学报, 2016, 35(7):704-713.

    [②] Choi J, Yi S, Lee K C. Analysis of keyword networks in MIS researchand implications for predicting knowledge evolution[J]. Information &Management, 2011, 48(8):371-381.

    [③] 杨爱青, 马秀峰, 张风燕,等. g指数在共词分析主题词选取中的应用研究[J]. 情报杂志, 2012, 31(2):52-55.

    [④] 李树青, 孙颖. 基于加权关键词共现时间元的个性化学术研究时序路径发现及其可视化呈现方法[J]. 情报学报, 2014, 33(1):55-67.

    [⑤] 叶春蕾, 冷伏海. 基于词汇链的路线图关键词抽取方法研究[J]. 现代图书情报技术, 2013, 29(1):50-56.

    [⑥] 叶鹰, 张力, 赵星,等. 用共关键词网络揭示领域知识结构的实验研究[J]. 情报学报, 2012, 31(12):1245-1251.

    [⑦] Zhu W, Guan J. A bibliometric study of service innovation research:based on complex network analysis[M]. Springer-Verlag New York, Inc. 2013.

    [⑧] Law J, Bauin S, Courtial J P, et al. Policy and the mapping ofscientific change: A co-word analysis of research into environmentalacidification[J]. Scientometrics, 1988, 14(3-4):251-264.

    [⑨] 马费成, 望俊成, 陈金霞,等. 我国数字信息资源研究的热点领域:共词分析透视[J]. 情报理论与实践, 2007, 30(4):438-443.

    [⑩] Tijssen R J W, Raan A F J V. Mapping co-word structures: Acomparison of multidimensional scaling and leximappe[J]. Scientometrics, 1989,15(3-4):283-295.

    [11] 魏瑞斌. 国内知识图谱研究的可视化分析[J]. 图书情报工作, 2011, 55(8):126-130.

    [12] Bhattacharya S, Kretschmer H, Meyer M. Characterizing intellectualspaces between science and technology[J]. Scientometrics, 2003, 58(2):369-390.

    [13]刘志辉, 赵筱媛, 杨阳. 基于网络关系整合的竞争态势分析方法[J]. 图书情报工作, 2011, 55(20):64-67.

    [14] Hui S C, Fong A C M. Document retrieval from a citation databaseusing conceptual clustering and co‐word analysis[J].Online Information Review, 2004, 28(1):22-32.

    [15]肖伟, 魏庆琦. 学术论文共词分析系统的设计与实现[J]. 情报理论与实践, 2009, 32(3):102-105.


    展开全文
  • 共词分析方法和理论的综述,描述当前国内外主要共词领域的方法体系,评析各方法的特点。
  • 基于共词分析的国外新兴产业领域知识网络研究,洪勇,张红虹,采用共词网络分析方法,对2001-2013年国外新兴产业研究领域相关文献进行综述分析。通过知识网络图可视化展示该领域的知识结构和研究
  • 基于共词分析的知识网络主题演化规律研究,刘非凡,李长玲,学科主题演化体现了某一学科的发展态势和未来走向,是研究学科发展规律的重要内容。本文检索CNKI数据库中的知识网络相关论文,提�
  • 国内开放存取的研究热点_基于共词分析的文献计量研究
  • 是用excel分析论文关键词的共现矩阵,提取高频关键词,分析论文研究热点。
  • 共词聚类分析

    万次阅读 2017-09-28 14:17:00
    共现聚类分析法,通过文献计量和聚类统计的方法,计算主题之间的联系密切程度(在同一篇文献共同出现的频率),将距离较近的主题聚集在一起,形成一个个概念相互独立的类团,使得类团内属性相似性最大,类团间...

    一、概念

    共现聚类分析法,通过文献计量和聚类统计的方法,计算主题词之间的联系密切程度(在同一篇文献共同出现的频率),将距离较近的主题词聚集在一起,形成一个个概念相互独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。

    二、关键流程

    1、聚类时距离的确定

    在进行聚类分析时,类组合的确定有两种概念方式,一是类与类之间的距离,二是点与点之间的距离。

    (1)类间距离:例如组间距离法

    (2)点间距离:例如欧氏距离法

    2、聚类方法的确定

    聚类分析是物以类聚的一种统计分析方法,实质是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类,目前常用的聚类方法有:

    (1)K类中心聚类(快速聚类)

    (2)等级聚类(系统聚类、层次聚类):

    a.分解法:开始先把所有合体视为一个大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。

    b.凝聚法:先把n个元素看成n类,然后将性质最为接近的2类合并成一个新类,得到n-1类,再从中找出最接近的2类加以合并变成n-2类,直到所有的元素全聚在一类之中。

    三、主要分析指标

    1、粘合力 用以衡量类团内各主题词对聚类成团的贡献程度 , 表达每个主题在类团的聚集过程中所起作用的程度,在类团中 , 粘合力最大的词称为中心词。

    2、密度:用来量度使字词聚合成一类的这种联系的强度 , 也就是该类的内部强度。

    3、向心度:向心度用来量度一个类团与学科其它类团的联系程度 。

    四、类团的可视化分析方法

    为进一步将聚类的结果以更直观的可视化方法显示出来 , 可视化方法可分为类团关系图与战略坐标图两种 。

    1、类团关系图

    类团关系图主要用于明确类团间的关系 , 类团间的关系强弱以连接线的粗细来表示 , 两个类团的关系越强 , 连接它们间的线条越粗 。 两个类团间的关系强度 , 由这个两类团中的所有成员间所组成的词对 , 这些词对在同一篇文献中出现的频率的总和即为两个类团间系联的强度值 。

    2、战略坐标图

    主要用来描述某一研究领域内部联系情况和领域间相互影响情况,在战略坐标中 , X 轴为向心度 , 表示领域间相互影响的强度 , Y 轴为密度 , 表示某一领域内部联系强度 。 以向心度和密度为参数绘制成的二维坐标即为战略坐标 , 它可以概括地表现一个领域内亚领域的结构 。



    展开全文
  • 金融共生国内研究热点分析--基于共词聚类的分析方法,虞小曼,张琳,金融共生理论深刻影响着我国金融理论研究与实际工作。本文利用《CNKI中国期刊全文数据库》中收录的2006-2015年与金融共生相关的期刊�
  • 为准确了解我国转型升级的研究热点,及时把握该领域的研究动态,在收集CSSCI期刊中2005年1月—2014年10月有关转型升级论文的基础上,将其关键词进行整理归类,并运用Ucinet 6.216对关键词网络进一步分析。结果显示,目前...
  • 国外近十年深度学习的研究现状与发展趋势——基于引文分析共词矩阵的知识图谱分析.pdf
  • MCScanX:MCScanX:多重线性扫描工具包X版本。 世界上最流行的同义词分析工具!
  • 本文基于CSSCI和SCI数据库在1994-2018年期间从数据源中发表的论文,我们使用共词分析和社交网络分析来构建中国的MOOC研究可视化网络图来描述该领域的动态,并且为未来的MOOC研究提出预测。 我们发现,中国的MOOC研究...
  • Bing词典分析

    2019-09-30 18:28:14
    本次测试的是Bing词典wp版本V4.5.2,经过测试,发现如下Bug。 1.更新后,旧版本首页的每日单词与文章推荐不能重新获得,部分搜索历史记录丢失。 2.在单词挑战模式下,以选项区域作为滑动起点进行拖动可能不被识别...

    0x01 Bug测试结果

    本次测试的是Bing词典wp版本V4.5.2,经过测试,共发现如下Bug。
    1.更新后,旧版本首页的每日单词与文章推荐不能重新获得,部分搜索历史记录丢失。
    2.在单词挑战模式下,以选项区域作为滑动起点进行拖动可能不被识别。(见视频)
    3.下载扩展词典后,部分中文输入的单词无法通过网络获得翻译,直接提示查找不到对应的翻译结果。删除软件并重新安装后可以再次正常搜索。
    4.我爱说英语模式下,遇到短句子时,使用较快的语速连读,则连读部分识别不正常。例:How do you want to go there. 疑问句末尾单词升音时判定有误,使用标准降音得分更好。
    5.单词搜索模式下,快速输入单词(如administrator),程序按字母检索单词,依次在下拉列表中显示单词所有前缀的搜索结果,但是唯独最终单词的搜索结果未被显示,而显示的是搜索历史。
    一个不确定的问题:
    我爱说英语模式下:单词末尾g发音是否进行罗马音发音方式判定。如morning、working。

    0x02 用户调查

    受访用户:某BUAA非英语专业大三学生基。目标提高英语考试成绩,使用软件背单词&学英语。
    使用过程中,基主要使用了查单词功能和单词挑战模式。基认为,软件简单易用,功能基本满足需求。软件存在的不足是联网查询单词太慢,以及没有扫一扫翻译的功能。用户体验比较好,但是手机版还是不如PC版方便。
    我比较推荐这款软件。
    (由于Markdown编辑器插入图片路径容易出错,另开设博客上传图片)

    0x03 软件分析

    优缺点分析

    Bing词典与很富哦同类词典相比,具有很多出彩的地方。
    1.Bing词典本身融合了多种功能,包括背单词、发音练习、习题练习等。与其他软件中的推广链接相比,这种方式轻量且易用。
    2.在单词学习方面,Bing词典会在很大程度上激励学习者进步。Bing词典中的模式中,存在诸多的排位制度,每一个使用者都会获得自己在所有使用者之间的排位,排名功能增加用户使用积极性。这对于一个学习软件是非常有效的方式。
    3.用户界面清爽,不存在弹窗式广告,所有页面干净清晰,界面用户体验好。应用推荐可以手动关闭,且方法简单。
    4.支持近义词和近音词搜索,拼写修正的正确率高。

    Bing词典目前也还有很多不完善之处。
    1.Bing词典的功能还尚未完善,缺少整句翻译、语音翻译等功能。
    2.作为微软官方推出的词典功能,未能和系统中其他组件相互融合,如不能快捷的翻译浏览器中选中的单词。
    3.关联的bing搜索不能在程序界面中打开,而是需要调用浏览器。导致切换程序不方便。

    开发建议:

    团队中应包含对wp操作系统底层架构较为了解的架构师及软件工程师,这样可以做到和系统层更好的耦合。(Android版本也存在此问题,Android版本中存在严重的用户界面和后台相应时间差导致的漏洞)

    软件开发周期估计

    假设团队由6人组成,不包括UI及相关设计人员。6人中4.5人参与开发,1人测试,0.5人担任PM(即PM同时负责简单的开发工作,如UI接口设计)。得出以下开发周期估计:
    1 week:分析软件需求,制定相应策划。
    4 weeks:利用微软提供的TTS等API获得快速原型,实现最基本的功能模块。功能实现可能会有错误,但是可以展示目标软件的基本模式。
    1 week:分析快速原型,清晰化目标软件。
    7 weeks:重构快速原型,得到可以使用的软件,并进行测试,撰写文档。所有模块可正常使用,用户体验良好。
    2 weeks:进行小范围测试,修复软件Bug,改进细微功能并完善用户体验。
    1 week:上线发布。随后根据用户反馈进行迭代。
    共计16周可上线。

    0x04 迭代改进

    在wp平台上,Bing词典是用户交互最为舒适、功能最全面的词典,本身具有相对较多的用户基础。
    与同类软件(如有道词典)相比,Bing词典与系统切合度最好,UI与系统适应,功能的集成度很高,但是依然有可以改进的地方。
    首先需要改进的部分如下:
    1.增加与系统中其他软件的交互,方便用户随时切换。
    2.增加题库数量,特别是说英语模块中的句子数量。
    前者尤其重要。
    Need:wp平台的词典软件目前都不支持跨软件的查词(由于墓碑机制,没有程序可以在后台常驻,因此不能实时监控剪贴板)。而用户在浏览器或其他app中快速查找生词已经成为一种非常常见的需求。如看pdf论文时,经常需要查找不认识的单词。
    Approach:直接通过系统层面的结构实现相应的功能。
    Benifit:这种方式可以方便用户快速查词,甚至是不借助进程切换就可以获得翻译推送。
    Competition:在wp平台上,可以用于程序间通信的方式非常少,应用程序的墓碑机制基本使监控成为不可能。而微软自身作为系统的开发者,可以为Bing词典留有特殊的监控和系统调用。
    Delivery:产品作为软件的扩展功能,可以在软件中设置是否开启,如果开启仅需要下载组件即可。

    对于一个5人团队,在改进Bing词典的方案上,我的分工如下:
    开发2.5人,测试1.5人,美工1人。即有一人同时工作于开发与测试模块,作为二者之间的衔接人;两人开发;一人测试;一人美工。

    转载于:https://www.cnblogs.com/-OwO-/p/4858080.html

    展开全文
  • 共词分析 1. 引言 自然语言处理是一个比较抽象的概念,具体可以落实到词法与句法分析、语义理解、语言认知、语言表示和知识图谱等基础研究,可以应用到文本分类与聚类、信息抽取、自动文摘等许许多多的方面[15]。...

    关于作者

    王宇(1959-),男,吉林通化人,教授,主要从事数据与文本挖掘、信息资源管理研究

    摘要

    作者基于

    关键词

    自然语言处理;词频分析;主题词提取;领域特征词;共词分析

    1. 引言

    自然语言处理是一个比较抽象的概念,具体可以落实到词法与句法分析、语义理解、语言认知、语言表示和知识图谱等基础研究,可以应用到文本分类与聚类、信息抽取、自动文摘等许许多多的方面[15]。信息资源80%是以自然语言描述的文本形式存在的,如何从海量的文本中掌握最有效的信息?这是自然语言需要解决的问题。国内许多学者致力于中文自然语言处理的研究,早期的如董振东先生的知网[2],哈尔滨工业大学信息管理实验室的同义词词林[3],黄曾阳先生的HNC理论[4]等,都在各自的研究方向上对自然语言处理的发展做出了不同程度的贡献,及大地推动了国内自然语言处理的发展。

    2. 实验内容

    2.1 数据来源

    在万方数据库搜索栏中输入关键词“自然语言处理”,时间选择2000~2010年,获得1021篇中文相关文献。

    2.2 数据处理——基于TextRank(第3部分解释原理)提取关键词

    1. 文本预处理(分词和词性标注):利用中科院计算所研发的ICTCLAS分词接口进行分词和词性标注。
    2. 词语过滤:过滤,只保留名词、动词和形容词。接下来,过滤掉停用词。
    3. 统计词频:统计加权词频。结果以单链表结构保存,每个节点包括:词汇、词频、词性和索引(索引指的是,原文中该词所在的位置编码)
    4. 短语合并:对一些未登录(即词典中没有出现的词)采用Tseng Yuen-Hsien, Lin Chi-Jen提到的方法进行短语合并[14]
    5. 利用同现分析(第三部分解释原理)算出每个词的特征值得分,获取单文档的主题词,并与文献本身的关键词汇总,去重,得到最终的代表该文献的领域特征词。

      2.3 领域特征词表分析

    转载于:https://www.cnblogs.com/DianeSoHungry/p/8321153.html

    展开全文
  • 共词网络(共现网络)学习

    千次阅读 2020-02-03 22:38:38
    1、基于共词网络的专家专场挖掘 刘萍 传统的专家专长挖掘是在词频分析基础上进行的,这种基于词频分析挖掘专家专长的方法没有考虑到关键词之间的关联,使得处于相对低频关键词表达的主题不能被挖掘出来且很多高频...
  • 摘要:以中国期刊全文数据库(CNKI)收录的645篇MOOC主题期刊论文为研究对象,以共词聚类和多维尺度分析为主要研究方法,采用Bicomb共词分析软件和SPSS 20软件进行内容数据统计和分析,绘制出能直观反映各 个高频...
  • 基于动力学模型的专利主题共词研究,裴艳林,张生太,专利是技术创新价值的体现,分析大量的专利数据有助于把握领域内技术动态,了解相关技术的竞争力。本研究在美国专利商标局(USPTO�
  • 共现分析

    万次阅读 2017-09-28 10:22:49
    共词分析法利用文献集中词汇对名词短语共同出现的情况,来确定该文献集所代表学科中个主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两...
  • 详细介绍了引文分析法和共词分析法的内容、特征、要素等知识,全面易懂,适合初学者使用。
  • 软件介绍: 一款很有用的文献分析软件bibexcel,可用于图谱的制作,可用于对文献的计量分析和引文分析、共词分析等,用户可以完成大多数文献计量学分析工作。
  • 社会化网络分析

    2014-05-23 17:24:00
    共词分析是对关键词共现现象进行研究的一种重要方法。它是对一组词在同一篇文档中出现的次数做统计,以此为基础对词进行聚类分析,从而显示这些词的亲疏关系,进一步分析分析这些词所代表的学科和主题的结构变化。...
  • 整理了山东省海洋生态文明的54项相关政策,构建了政策关键词的共词矩阵,并采用共词分析方法进行了定量分析。 通过对政策网络中心性,政策主题组和结构漏洞的测量,分析了政策内容的协调性和政策要点的中心性。 ...
  • PPP研究的热点和路径:基于CNKI数据的文献计量分析,孔可莹,,为了探索PPP的研究趋势,以CNKI中文期刊数据库中有关PPP研究的文献作为样本,运用Citespace软件进行了共词分析,通过可视化图谱技术,�
  • 信息计量学分析提纲

    2016-07-06 16:34:35
    题目:国内外在线学习研究的可视化对比分析 摘要:通过对……进行…..分析,研究结果显示:…… ...共词分析、词频分析的解释,基本仿照老师的那篇论文;2.数据如何收集(检索式、数据库)、数据清洗; 3基础分析:
  • 以CNKI中文核心和CSSCI期刊为数据来源,检索收集有关我国植物新品种权研究的相关文献,运用共词分析和社会网络分析方法,从文献期刊来源、作者、发文机构等方面进行统计分析。研究认为,目前我国植物新品种权领域的研究...
  • 利用从专利名称和摘要文本中抽取的技术术语,采用第三代共词分析技术进行技术研发主题分析。根据技术术语的共现频率采用对等(equivalence)指标计算术语之间的连接强度,按照一定规则将术语聚类为技术主题簇,引入...
  • 【方法】通过微博语料分析构建疑问词表, 在大连理工大学情感词汇本体 DUTIR 的 7 类情感基础上, 丰 富一类情感“疑”, 并利用点互信息法构建表情符号词典, 还综合考虑否定和程度副词对情感表达的影响, 利用 ...

空空如也

空空如也

1 2 3 4 5 ... 14
收藏数 278
精华内容 111
关键字:

共词分析