精华内容
下载资源
问答
  • 基于数据挖掘的舆情观点挖掘研究.pdf
  • 介绍目录1、观点挖掘1.1、观点挖掘的概念1.2、观点挖掘和情感分析的区别与联系2、方面级观点挖掘的流程2.1、方面发现2.1.1、显示方面发现2.1.2、隐式方面发现2.2、方面级情感分析2.2.1、方面级情感分析思路2.2.2、...

    1、观点挖掘

    随着Internet的发展和普及,尤其是web2.0时代之后,普通网络用户已经从信息接收者转变为信息的生产者,网络中充斥着各种数据。其中有很多具有评论性和主观倾向性的文本,这些网络数据能够反映出发表者对于评论对象的观点态度。例如,微博中含有用户发表的大量评论,包含着用户对各事件、人物的观点态度。然而,绝这些网上数据大多是计算机无法直接处理的非结构化文本数据。

    在这种情形之下,如何通过相关技术分析文本中表达的观点与情感极性,帮助用户快速的获取信息成为自然语言处理领域的热门话题,观点挖掘被国内外学者广泛研究。在过去的研究中,研究者主要是在篇章级、语句级、方面级这三个层次上进行观点挖掘。

    篇章级观点挖掘将一个文本看作是一个统一的整体,对这个整体进行观点的挖掘,常用方法有基于文本分类的情感极性分析、基于语义规则的情感极性分析、基于情感词典的情感极性分析、 基于深度学习的情感极性分析;语句级观点挖掘是将一个句子看作是一个基本的单元,先判断句子的主观性,再分析句子的情感极性,该层次的研究主要是在商品的评论方面;属性集的观点挖掘主要是针对实体的某一个属性,挖掘出该属性表达的观点信息,包含的流程有实体属性的提取、基于属性的观点内容的提取、观点的情感极性分析、观点的总结,其中,实体属性的提取和基于属性的观点内容的提取最为重要,实体属性是指评价实体的最小单位,属性的提取可以分为带监督、无监督、半监督三种,基于属性的观点内容提取,在实体属性抽取的基础上,基于该属性提取观点表达的内容,其实质就是提取出一个二元组的模式<方面,观点>,主要方法有基于规则的方法、基于统计模型的方法、基于深度模型的方法。1

    本文主要针对方面级观点挖掘与其在人物事件观点挖掘上的应用进行介绍。

    1.1、方面级观点挖掘

    观点挖掘主要是挖掘文档背后的潜在的观点,主要包含情感分析、特征词和观点词抽取聚类等,在此基础上获取相关词表和文档主题评论摘要。

    根据kim等人的定义2,观点由四个要素组成:持有者(holder)、方面(aspect)、观点内容(expression)及情感(sentiment)。这四者之间存在的联系为:观点的持有者针对某一方面发表了具有情感的观点内容。

    方面级观点挖掘是将包含评价实体和实体方面的文本筛选出来,然后针对不同的方面进行观点挖掘,根据这些信息判断观点在文本中表达的情感倾向,而不是提取评价文本的总体性评价。

    现有的网络评论观点挖掘主要是研究商品评论的观点挖掘、豆瓣电影的评论挖掘、旅游评论的观点挖掘,具有很大的应用前景。以商品评论为例,商品评论内容多样、格式不定、语句口语化,但是评论的观点较为明显;相对于商品而言,电影的评论较为正式、比较容易判断所表达的情感。在商品评论观点挖掘中,通过对购买者言论及评论进行分析,可以快速了解商品各方面的情况,买家掌握商品更全面的信息,卖家可以根据自己的需求做出更好的选择,同时,商家可以依据观点挖掘的结果来不断改进自己的商品。例如,在一条关于相机的评价文本中存在这样的描述:

    I bought a new camera. The picture quality is amazing, but the battery life is too short.

    对该条评论进行方面级观点挖掘,我们首先可以使用序列标注等方法提取出该评论所针对的实体属性,the picture quality 和 the battery life,可以知道这一条文本涉及到了相机的两个属性像素功能、电池性能,继续分析提取出基于这两个属性的观点,amazing、too short,接着,我们可以对评论进行方面级的情感分析,分析出这两个属性的情感色彩,最后使用模板匹配等方法进行观点总结。

    1.2、观点挖掘和情感分析的区别与联系

    观点挖掘表示一种对实体及实体方面的观点及态度的挖掘研究,它的实质是文本的情感倾向性分类,但观点挖掘与情感分析不尽相同,二者是两个经常混肴的研究领域。情感分析是指通过自动分析网络评论的文本内容,挖掘评论用户对这方面的褒贬态度倾向,大部分网络评论情感分析集中于评论的情感极性分析。观点挖掘往往伴随情感分析,但是并不绝对,常用的观点挖掘的流程为:方面挖掘、基于方面的观点内容挖掘、观点情感分析、观点总结,下面依次介绍这几个方面。

    2、方面级观点挖掘的流程

    2.1、方面挖掘

    对于给定的言论、评论,首先需要发现其中所涉及到的方面信息。根据是否明确指明观点评论中心,可以将方面发现分为显示方面发现与隐式方面发现。在显示方面发现中,会正向指明观点所对应方面;在隐式方面发现中,评论观点中会暗含评论对象。

    2.1.1、显示方面发现

    根据显示方面相关研究,可以将显示方面发现的方法分为带监督学习方法、无监督学习方法和半监督学习方法。

    2.1.1.1、带监督学习

    方面发现可以看作一个典型的序列标注任务,因此可以利用带监督的统计模型对序列标注过程进行训练,从而提取句子的方面表示。常用于方面提取的典型带监督学习方法有隐马尔可夫模型(Hidden Markov Model,HMM)3,条件随机场模型(Conditional Random Field,CRF)4。近年来,Poria5等人提出多种不同的神经网络模型,以自动学习基于CRF的方面提取的特征。带监督模型的精度较高,缺陷在于带监督学习需要大量的带标签的训练数据,领域间的可移植性较差,这无疑将带来极大的人力、物力上的消耗,而且标注出的数据主观性太强。

    2.1.1.2、无监督学习

    无监督学习可以解决带监督学习的人工标注成本太高、标注依赖等问题。目前,潜在的迪利克雷分布已成为方面抽取的无监督公认方法。方面提取的无监督方法有Hu6提出的基于词性标注、Apriori的规则统计方法,Bagheri7等人提出的采用 bootstrapping 方法从数据中自助提取方面,等等。无监督学习的可操作性更强,无需标注的大量数据,适用于目标领域较小的数据集,难点在于需要提前建立规则模板,并对海量的评论数据进行语义分析等预处理工作,人工干预相对较多,不适用于结构相对复杂的数据。

    2.1.1.3、半监督学习

    半监督学习方法介于带监督学习和无监督学习之间,让学习器不依赖与外界的交互,自动利用未标记样本来提升学习性能,在方面提取中既避免了大量的文本标注,同时可以利用数据的内部的大量的信息进行方面提取。等人提出了两个新型的半监督模型:SAS(seeded aspect and sentiment model)和ME-SAS8(maximum entropy-SAS model),前者先提取方面后提取观点内容,后者将观点和方面联合提取,同时,加入了相应的种子词汇。半监督学习能够利用局部标注完成显示方面的全局挖掘,但对数据的领域有着较强的依赖。

    2.1.2、隐式方面发现

    在针对隐式方面中=指示词代指特定方面的情况,Yang9等人借助维基百科利用模板来获取指示代词和方面名词之间存在的语义关系。Xu10等人提出采用LDA和SVM分类器来获取隐式方面,首先用LDA来提取显示方面,再用LDA模型的两个约束性、关联性先验参数引导建立SVM分类器的训练特征,最后,由SVM分类器来识别隐式与显式方面。Zhang11等人提出了一种新型的基于共现关系来识别隐式方面的模型。Bagheri12等人提出了一种无监督的领域独立模型来提取隐式方面,观点词作为节点映射到相应的一组方面节点上,方面与观点词间有联系则联通边上的权重较高,然后利用基于图的计分方法来计算方面与观点节点间的距离来识别隐式方面。Xia13提出了一种利用主题图的方式来获取隐式方面。

    2.2、基于属性的观点内容提取

    2.3.1、细粒度观点内容抽取思路

    爬取数据
    评论数据库
    分句+分词+词性标注
    依存关系分析
    <方面, 观点词>二元组提取
    自定义规则库
    情感极性判断
    输出
    自定义情感词典
    自定义程度词+否定词计算规则

    基于属性的观点内容的提取方法主要可以分为三种:基于规则提取(通过使用依存句法分析等工具,流程如上图所示)、基于统计模型提取(crf)和基于深度学习模型提取(bilstm)。

    基于规则的提取方法通常只能提取到观点的情感词,而不是观点的内容;基于统计模型的观点内容的提取需要人工筛选特征集,且模型对于人工选择的细致性有较强的依赖性;端到端架构的深度学习具有自动学习的特性,精度高,但参数敏感。

    2.3.2、细粒度观点内容抽取方法

    2.3、方面级情感分析

    方面级情感分析任务是在给定语料、限定方面的情况下,分析数据在各方面的情感色彩,如在以下数据中:

    苹果手机屏幕质量非常好,但是电池容量不足。

    在给定方面信息为屏幕质量和电池容量的情况下,通过这条手机评论语料进行方面级情感分析,我们能够获得评论者对于手机的屏幕质量方面表达出非常积极的情感色彩,而对于手机电池容量方面表达出消极的情感色彩。

    2.3.1、方面级情感分析整体思路

    16年Liu等人首次提出带有注意力的LSTM模型进行方面级情感分析任务,将方面信息融入注意力,17、18年等人在LSTM基础上提出通过双向、多粒度、深度等注意力机制对方面情感进行分析,更好的了方面信息与上下文信息,18年bert被提出后,学者们通过引入bert进行表示学习,方面级情感分析的效果明显提高。

    2.3.2、方面级情感分析改进方法

    通过调研发现,目前的term表示非常单一,可以使用外部知识库扩充term,加强方面信息,针对可能引入的噪声对扩充后的集合进行蒸馏;另一个方面,现有的方法是通过注意力机制强化相关方面信息使其情感分析关注于某一个方面,可以使用mask机制弱化非相关方面信息,使方面单一化。

    2.4、观点内容总结

    在这里,观点内容总结我们可以使用(1)基于方面的观点总结(2)抽取式观点总结 两种方法,生成观点的整体报告。

    2.4.1、基于方面的观点总结

    基于方面的观点总结方法,需要首先识别出被评论对象的方面,并根据频率信息对其进行排序;然后针对每一个方面,统计其情感极性得分,生成直观形象的方面情感分布。

    基于方面的观点总结具有两个显著的特征:(1)能够抓住观点的本质,直观获取评论者对观点目标所持有的态度。
    (2)基于方面的观点总结产生结果是定量的,使结果看上去更精确、直观

    2.4.1、抽取式观点总结

    抽取式的观点总结既可以通过主题模型生成(tf-idf、词性、权值排序) ,也可以使用序列标注模型模型进行抽取。

    这种方法一个缺点是不会考虑方面信息,筛选出来的语句可能与任何方面情感无关,将影响结果的可信度。

    2.5、观点挖掘的评价

    观点挖掘的不同步骤需要使用不同的评价方法,这里分别介绍方面提取和观点内容提取的评价方法。

    2.5.1、方面提取的评价方法

    观点句的方面通常为单个词的形式,因此,通常选用直接与标注对比计数的方法;同时,选取精确率、召回率、F1度量值来评价模型的整体性能。
    P r e c i s i o n = ∣ { p ∣ p ∈ P ∧ c ∈ C s . t . α ( c , p ) } ∣ ∣ P ∣   . R e c a l l = ∣ { c ∣ c ∈ C ∧ p ∈ P s . t . α ( c , p ) } ∣ ∣ C ∣   . F 1 = 2 P r e c i s i o n ⋅ R e c a l l P r e c i s i o n + R e c a l l   . Precision = \frac{ \lvert \lbrace p \lvert p \in P \wedge c \in C s.t. \alpha (c, p) \rbrace \rvert} {\lvert P \rvert}\,. \\ Recall = \frac{ \lvert \lbrace c \lvert c \in C \wedge p \in P s.t. \alpha (c, p) \rbrace \rvert} {\lvert C \rvert}\,. \\ F1 = \frac{2 Precision \cdot Recall}{Precision + Recall}\,. Precision=P{ppPcCs.t.α(c,p)}.Recall=C{ccCpPs.t.α(c,p)}.F1=Precision+Recall2PrecisionRecall.
    C C C P P P分别表示人工标注的短语集合和模型输出的短语集合, c c c p p p分别表示每个标注短语与模型相应输出短语, α ( c , p ) \alpha(c,p) α(c,p)表示标签短语与输出短语完全匹配, ∣ ∣ || 表示计算符合要求的短语数量。

    2.5.2、观点内容提取的评价方法

    在传统的度量方法之中,每个预测短语与真正标注短语的一次完全匹配被看作是一次正确预测,也被称为精确评价的方式。但在观点内容提取任务上,文本表达的观点的界限往往难以定义,人工识别也有一定的个困难。模型往往会挖掘出一些与真正标签相近但却不完全相同的表达,例如标签“严厉的批评”,可能只提取出“批评”,既不是完全错误,也不是完全正确,因此,采用传统的度量并不是评价观点内容提取的科学方法。
    目前有两种基于传统度量方法的改进后的软性评估方法——二元重叠法[](binary overlap)、比例重叠法(proportional overlap)[]来评估观点挖掘任务。二元重叠法认为只要标签短语与预测短语存在重叠部分,则作为一次预测正确,比例重叠法则是按照比例匹配计数。
    二元重叠法的公式如下:
    P r e c i s i o n b = ∣ { p ∣ p ∈ P ∧ c ∈ C s . t . α ′ ( c , p ) } ∣ ∣ P ∣   . R e c a l l b = ∣ { c ∣ c ∈ C ∧ p ∈ P s . t . α ′ ( c , p ) } ∣ ∣ C ∣   . F 1 b = 2 P r e c i s i o n b ⋅ R e c a l l b P r e c i s i o n b + R e c a l l b   . Precision^b = \frac{ \lvert \lbrace p \lvert p \in P \wedge c \in C s.t. \alpha ^\prime(c, p) \rbrace \rvert} {\lvert P \rvert}\,. \\ Recall^b = \frac{ \lvert \lbrace c \lvert c \in C \wedge p \in P s.t. \alpha^ \prime (c, p) \rbrace \rvert} {\lvert C \rvert}\,. \\ F1^b = \frac{2 Precision^b \cdot Recall^b}{Precision^b + Recall^b}\,. Precisionb=P{ppPcCs.t.α(c,p)}.Recallb=C{ccCpPs.t.α(c,p)}.F1b=Precisionb+Recallb2PrecisionbRecallb.
    α ′ ( c , p ) \alpha ^\prime(c, p) α(c,p)表示 c c c p p p之间存在重叠部分
    比例重叠法的要求较高,其公式如下:
    r ( c , p ) = ∣ c ∩ p ∣ ∣ p ∣   . R ( C , P ) = ∑ c ∈ C ∑ p ∈ P r ( c , p )   . P r e c i s i o n p = R ( c , p ) ∣ P ∣   . R e c a l l p = R ( p , c ) ∣ C ∣   . F 1 p = 2 P r e c i s i o n p ⋅ R e c a l l p P r e c i s i o n p + R e c a l l p   . r(c,p) = \frac{\lvert c \cap p \rvert}{\lvert p \rvert}\,.\\ R(C,P) = \sum_{c \in C} \sum_{p \in P}r(c,p)\,.\\ Precision^p = \frac{ R(c,p)} {\lvert P \rvert}\,. \\ Recall^p = \frac{R(p,c)} {\lvert C \rvert}\,. \\ F1^p = \frac{2 Precision^p \cdot Recall^p}{Precision^p + Recall^p}\,. r(c,p)=pcp.R(C,P)=cCpPr(c,p).Precisionp=PR(c,p).Recallp=CR(p,c).F1p=Precisionp+Recallp2PrecisionpRecallp.
    r ( c , p ) r(c,p) r(c,p)为计算重叠比例
    比例重叠法更为严谨、通用。

    3、方面级观点挖掘的挑战

    1、互联网上的评论复杂多样,特别是在面对如包含网络用语、习语、隐喻义时,如何应对结构不规整的复杂句;
    2、互联网中的评论大多具有中心,如围绕某一事件或产品等事物展开进行讨论,如何在短文本评论中使用好中心信息;
    3、由于评论中心的存在,不同领域的评论观点内容提取会有很大不同,如何增强模型的跨领域能力,提高模型的可扩展性和多领域可移植性;
    4、在提取观点内容时,现有模型还不能十分准确的定位到观点内容的边界,如何更好的识别观点内容的边界很大的影响着观点内容提取的优劣。

    4、面向热点事件评论与其他网络评论观点挖掘的相同与差异

    4.1、数据特征的差异

    评论包含着发声者对某种人或事物所持有的观点,以及对该观点的阐述等信息,现有的研究主要基于以下几种评论:新闻评论,图书评论,影视评论,产品及服务评论。目前为止,面向人物、事件的评论鲜有人进行研究。

    网络评论整体的特征有:数据海量、复杂多样、非结构化和可用价值高,但不同类型和领域的评论各有其特点,对不同的类型的评论进行观点挖掘需要采用不同的方法,各类评论数据相应特征如表所示。

    评论类别评论特性
    新闻评论形式上比较规范,内容上观点鲜明,情感倾向明确
    图书评论形式松散,内容专业性不强,观点不明显,评价对象相对容易判断
    影视评论类似于图书评论,往往有感而发,随意性更强
    产品及服务评论内容简洁,评论对象和情感倾向明显
    人物、事件评论形式最松散,内容最丰富,情感最复杂,隐含价值最高

    4.2、方法的差异

    无论面向人物、事件评论或其他网络评论观点挖掘中,评论观点抽取任务都是细粒度评论挖掘的核心任务,其面临的主要挑战是如何自动抽取评论文本中由评价对象、程度词、观点词构成的三元组。

    在其他网络评论中,特别是产品及服务评论,由于内容简洁,层次分明,观点明确,无论是训练语料的标注,或者试验效果,都相对比较理想,BILSTM-CRF已成为受到广大认可的方面、观点抽取模型。而在面向人物、事件评论的观点挖掘中,由于形式松散,包含隐含信息多,情感的表达多式多样。

    其次,相比于产品评论观点分析,面向人物、事件观点分析的关于各方面的观点内容形式多样,很难直接进行观点内容提取,可根据方面的不同采用不同的提取方法,如在对措施介绍方面进行观点分析时,可以通过提取关键词,文本摘要的方法获取观点信息;在对态势分析方面进行观点挖掘时,可以通过分类方法预测贸易战的走势;在对解决方案进行分析时,可以通过抽取式摘要方法进行总结,在对“乌克兰事件”、香港问题等具体的问题进行分析时,可以是用情感情感分析方法判断发言人的态度;转发引用的评论,并不包含转发者表明的态度、观点,但可以根据转发记录找到转发者之间的潜在联系,构建人物之间的关系。

    5、面向热点事件的人物观点挖掘系统

    5.1、系统的功能结构

    面向热点事件的人物观点挖掘系统旨在挖掘社交媒体上定向人物发表的对于各事件的观点意见,分析该人物对各事件、人物的观点意见,生成较全面的人物画像。

    面向人物事件的观点挖掘系统
    事件发现子系统
    事件方面发现子系统
    方面观点分析子系统
    观点情感分析子系统
    观点总结子系统
    可视化展示子系统
    观点评价子系统

    系统的功能结构图如上图所示,面向人物、事件的观点挖掘系统主要包含四个子系统,分别是事件发现子系统、事件方面发现子系统、事件方面观点分析子系统、观点总结子系统、观点评价子系统。

    事件发现子系统通过规则库匹配与分类模型进行事件识别,发现事件的相关评论;事件方面发现子系统通过序列标注模型、规则模板发现评论中描述的方面信息;方面观点分析子系统分析方面级情感获得各方面情感极性,再采用主题模型、标注模型分析方面观点;情感分析子系统获取各方面观点的情感极性;观点总结子系统利用方面信息、抽取信息总结事件观点;可视化展示子系统将上述分析结果通过e-charts图、人物画像等方式进行可视化的展示,给予用户直观、简明的分析结果;最后,用户通过观点评价子系统对评论分析结果打分,后台人员分析反馈结果对系统优化再开发。

    5.2、事件发现子系统

    事件类别识别是从非结构信息中抽取出用户感兴趣的信息,并以结构化数据传递给用户。传统的机器学习方法采用支持向量机(SVM)、最大熵模型(ME)以及朴素贝叶斯分类器对的事件类别进行识别,最近比较火热的深度学习方法采用循环神经网络、卷积神经网络等方法对的事件类别进行识别。目前比较常用的事件识别技术是循环神经网络算法(RNN)、长短期记忆网络算法(LSTM)、卷积神经网络算法(CNN)等。

    在本系统的事件发现子系统中,我们使用规则库和循环神经网络的联合识别关于事件的评论。

    5.2.1、基于规则库的事件识别

    以特定事件为背景,从所有的推特评论中整理出与该事件相关评论,以这些数据为基础归纳该类事件的评论方式,发现评论中的词语具有一定的规律可循,以评论中抽取出来的关键词汇为标识,确定是否为该事件相关评论。目前,该类事件评论的判别规则库如表2所示。
    从表中可以看到,评论是否为事件评论取决于评论中包含的关键词,如果评论中包含有表中显示的一个或多个词,同时不包含“好吃”、“养胃”、“美容”、“不贵”等明显与特定事件无关的词,我们就将评论视为是该战事件相关评论。

    数据来源事件类型事件相关词事件无关词
    twitter贸易摩擦汇率、贸易差额等美食、美妆、旅游、娱乐等

    5.2.2、基于循环神经网络的事件识别

    采用规则库识别后,对非特定事件的评论再使用循环神经网络(RNN)进行事件识别。循环神经网络网络的本质特征是在处理单元之间既有内部的反馈连接又有前馈连接。在计算过程中体现过程动态特性,比前馈神经网络具有更强的动态行为和计算能力。

    5.3、事件方面发现子系统

    在搜集到的评论预料中,大多每条推特仅包含其中的一到两个方面,首先需要识别出评论中所包含的方面信息,计划采用序列标注模型(BILSTM-CRF)进行方面发现。

    5.4、事件方面观点分析子系统

    提取出事件评论中的方面信息后,使用方面级情感分析方法LCF14对事件各方面进行情感分析,并试验其改进方案,得到对于评论者对事件的比较细粒度看法。

    对于评论中涉及到需要进一步理解的评论,使用BILSTM-CRF、主题模型方法抽取重要的观点评论。

    5.5、观点总结子系统

    在观点总结子系统中,我们对上述系统中分析到的方面信息、观点信息、情感信息进行整合,使用抽取式和基于方面的两种方法进行观点总结。

    5.6、可视化展示子系统

    使用charts工具对挖掘结果进行可视化,方便用户使用。

    5.7、观点评价子系统

    用户在观点评价子系统提交在系统使用过程中遇到的问题,及时与开发人员联系。

    6、目前系统算法、架构与展示

    6.1、系统算法

    6.1.1、评价对象抽取

    在对评价对象进行抽取时,本文中采用Yang等人15提出来的NCRF++模型。NCRF++是为快速实现具有CRF推理层的不同神经序列标注模型而设计的。它为用户提供了配置灵活的神经网络模型结构。

    NCRF++模型由字符序列层、单词序列层、推理层构成。绿色、红色、黄色和蓝色圆圈分别表示字符的表示、单词的表示、字符序列的表示和单词序列的表示。灰色圆圈表示人工选择特征的嵌入。字符序列层集成了RNN和CNN两种用于字符序列信息的神经编码器,提取字符级特征。单词序列层和字符序列层类似,集成RNN、CNN两种编码器,提取词级特征。推理层将单词序列层的输出通过Softmax或CRF函数进行打标签,输出序列标记结果。

    6.1.2、知识增强的情感分析

    2019年Song等人16提出了一种注意力编码神经网络模型AEN_BERT,将BERT应用到观点倾向分析,使用多头注意力对文本和对象进行交互训练;2019年Wei17等人一种多极性正交注意力机制,通过多头注意力机制嵌入情感极性信息,并添加正交惩罚性保证每个注意力在训练过程中的差异化;2019年Meng等人18通过使用多个编码器,分别编码知识与训练数据,提出了一种知识增强的摘要模型。我们借鉴这一思想,针对特定人物观点挖掘任务,提出一种新的知识增强的注意力编码神经网络KEAEN_BERT用于特征表示和观点倾向分析。

    知识增强的注意力编码网络模型共有基于BERT的嵌入层、多头注意力编码层、目标和知识特定注意力层、多元整合输出层四层。下面依次介绍每一层结构。

    1. 预训练模型已经成为了NLP领域最重要的资源之一。在嵌入层中,我们使用预训练的BERT模型分别生成文本、对象和外部知识的表示。

    2. 在多头注意力编码层,我们主要对嵌入层的输出结果进行加权与特征提取。注意力编码层主要包含两个部分:多头注意力变换(MHA)和点卷积变换(PCT)。

      2.1 多头注意力变换(MHA)
      我们使用多头注意力机制对嵌入层的输出进行加权处理。当对评价对象或背景知识的输出进行加权时,我们使用Inter-MHA,令文本信息的输出作为注意力查询向量,q!=k,使得评价对象和背景知识可以根据文本信息进行建模表示;当针对文本信息的输出进行加权时,我们使用Intra-MHA,令文本信息的输出作为注意力查询向量,q=k,对文本信息的输出进行加权表示。
      在多头注意力编码层,模型得到了上下文表示 、上下文感知的评价对象表示 、上下文感知的狭义背景知识表示 、上下文感知的广义背景知识表示 。由于上下文表示 包含的信息是最重要,因此将上下文感知的评价对象表示 、上下文感知的狭义背景知识表示 、上下文感知的广义背景知识表示 反作用到上下文表示 。因此,我们使用另三个MHA分别获得评价对象特定上下文表示、狭义背景知识特定上下文表示、广义背景知识特定上下文表示。

      2.2 点卷积变换(PCT)
      在这里,我们使用点卷积变换将多头注意力MHA部分收集到的上下文信息进行转换,对所有输入进行相同的转换。

    3. 对象和知识特定关注层使用另三个MHA分别获得评价对象特定上下文表示、狭义背景知识特定上下文表示、广义背景知识特定上下文表示。多头注意力编码层,模型得到了上下文表示 、上下文感知的评价对象表示 、上下文感知的狭义背景知识表示 、上下文感知的广义背景知识表示 。由于上下文表示 包含的信息是最重要,因此将上下文感知的评价对象表示 、上下文感知的狭义背景知识表示 、上下文感知的广义背景知识表示 反作用到上下文表示 。

    4. 对象和知识特定关注层的输出进行池化操作后,对文本、对象、知识等各部分的池化输出结果进行拼接,使用全连接层将连接向量投影到目标分类空间中,得到观点倾向预测结果。

    6.2、系统机构与展示

    目前观点挖掘系统可以通过深入分析与评价对象相关的数据,生成整体观点倾向、相关对象观点倾向、观点片段、代表性观点等五种形式的观点挖掘结果,直观展示给使用用户,帮助用户方便、快捷地了解指定人物对指定对象的观点。

    系统主页面是用户的主要交互界面,用户可以通过主界面了解系统的功能。在主界面的最上侧是导航栏,导航栏和后端的调度模块直接相连,用户不论进入到哪个页面都可以通过导航栏进行各个页面的切换。导航栏还可以进行缩放,进一步节省屏幕空间。导航栏的下方是对系统的定位与目标的介绍,最下方是系统的三个主要应用场景。

    用户可以在点击屏幕正中间的“Get start today”按钮或者导航栏中的“Services”按钮进入分析服务界面,如图4-3所示。 分析服务界面中的Character文本框表示观点持有者,People/Thing文本框表示评价对象。用户可以修改People/Thing文本框,输入想要检索的评价对象,点击“Analyze”分析按钮,得到观点持有者对该评价对象的观点意见。

    分析服务界面主要通过分析观点持有者发表的包含评价对象的数据,提取五种不同形式的观点意见,分别是整体观点倾向、相关对象的观点倾向、观点片段、代表性观点、高频词。

    整体观点倾向分析指分析人物发表的涉及目标对象的数据,通过上文中提到的NCRF++评价对象抽取、KEAEN_BERT观点倾向分析方法,得到该人物对指定对象的整体观点倾向分布。从图中,我们可以分析得出该人物对指定对象总体上持有正向积极的观点。
    通过结合发表时间重新整理观点倾向分析结果,得到该人物对指定对象的观点倾向变化。通过分析该人物对指定对象的观点倾向变化,可以分析得出在2018年之后,该人物才开始关注指定对象,且所发表的数据都持正向积极的观点倾向。

    如果能够找到该人物对与指定对象相关的其他对象的观点倾向,可能对理解该人物对与指定对象观点倾向的产生原因提供帮助。因此,系统对涉及指定对象的数据进行评价对象抽取,对所有对象依次进行观点倾向分析,得到该人物对与指定对象相关的对象的观点倾向。通过分析,可以得出该人物对与指定对象持有积极的观点倾向可能是由于指定对象是一家中国公司。

    为了继续挖掘该人物对与指定对象观点倾向的原因,将所有涉及该人物通过使用NLTK工具包进行词性分块,再借鉴Qiu等人提出的观点抽取规则,抽取该人物对与指定对象观点片段。通过观点片段抽取结果,可以分析得出该人物认为指定对象是一家高科技公司,并且在生产伟大的产品,这很有可能是该人物对指定对象持有积极观点倾向的原因。
    之后,由于该人物针对评价对象可能发表多条包含相同观点的数据,因此,系统使用AP算法帮助用户对该人物发表的与指定对象相关数据进行聚类,并取出具有代表性的数据,展示出该数据的点赞、转发次数与发表时间。通过代表性观点抽取,可以帮助用户过滤价值含量低的数据,明显节省用户阅读时间。


    对涉及指定对象的数据进行分词、清洗等处理后,利用可视化工具来生成词云图,帮助用户快速抓住该人物对指定对象印象的关键词。

    如果用户对系统有任何建议或意见,可以通过点击导航栏的“Contact”按钮,进入联系页面,通过提交表单与我们进行沟通交流。
    其次,系统完成了移动端开发,可以在手机等工具上进行自适应显示,提高了用户的功能体验。

    作者info

    作者:wjy \quad 方向:观点挖掘,知识工程
    欢迎转载,期待关注


    1. 赵泽青. 网络评论观点挖掘综述[J]. 现代计算机(专业版), 2019, 643(07):51-55. ↩︎

    2. Kim SM, Hovy E. Determining the sentiment of opinions. In: Proc. of the 20th Int’l Conf. on Computational Linguistics (ICCL
      2004). Stroudsburg: ACL, 2004. 1367. [doi: 10.3115/1220355.1220555] ↩︎

    3. Jin W , Ho H H , Srihari R K . OpinionMiner: A novel machine learning system for web opinion mining and extraction[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, France, June 28 - July 1, 2009. ACM, 2009. ↩︎

    4. Lafferty, J., McCallum, A., Pereira, F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann: 282–289. 2001. ↩︎

    5. Poria S, Cambria E, Gelbukh A. Aspect extraction for opinion mining with a deep convolutional neural network. Knowledge- Based Systems, 2016,108©:42−49. [doi: 10.1016/j.knosys.2016.06.009] ↩︎

    6. Hu M, Liu B. Mining and summarizing customer reviews. In: Proc. of the 10th ACM SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining (KDD 2004). New York: ACM Press, 2004. 168−177. [doi: 10.1145/1014052.1014073] [ ↩︎

    7. Bagheri A, Saraee M, Jong FD. An unsupervised aspect detection model for sentiment analysis of reviews. Lecture Notes in Computer Science, 2013,7934:140−151. [doi: 10.1007/978-3-642-38824-8_12] ↩︎

    8. Mukherjee A, Liu B. Aspect extraction through semi-supervised modeling. In: Proc. of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1 (ACL 2012). Stroudsburg: ACL, 2012. 339−348. ↩︎

    9. Yang X, Su J. Coreference resolution using semantic relatedness information from automatically discovered patterns. In: Proc. of the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007). Stroudsburg: ACL, 2007. 528−535. ↩︎

    10. Xu H, Zhang F, Wang W. Implicit feature identification in Chinese reviews using explicit topic mining model. Knowledge-Based Systems, 2015,76(1):166−175. [doi: 10.1016/j.knosys.2014.12.012] ↩︎

    11. Zhang Y, Zhu W. Extracting implicit features in online customer reviews for opinion mining. In: Proc. of the 22nd Int’l Conf. on World Wide Web Companion (WWW 2013). New York: ACM Press, 2013. 103−104. [doi: 10.1145/2487788.2487835] ↩︎

    12. Bagheri A, Saraee M, De JF. Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews. Knowledge-Based Systems, 2013,52:201−213. [doi: 10.1016/j.knosys.2013.08.011] ↩︎

    13. Xia L, Wang Z, Chen C, Zhai S. Research on feature-based opinion mining using topic maps. The Electronic Library, 2016,34(3): 435−456. [doi: 10.1108/EL-11-2014-0197] ↩︎

    14. Zeng, Biqing & Yang, Heng & Xu, Ruyang & Zhou, Wu & Han, Xuli. (2019). LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classification. Applied Sciences. 9. 3389. 10.3390/app9163389. ↩︎

    15. Yang J, Zhang Y. NCRF++: An open-source neural sequence labeling toolkit[C]//Proceedings of ACL 2018, System Demonstrations. 2018: 74-79. ↩︎

    16. Song Y, Wang J, Jiang T, et al. Attentional encoder network for targeted sentiment classification[J]. arXiv preprint arXiv:1902.09314, 2019. ↩︎

    17. Wei J, Liao J, Yang Z, et al. BiLSTM with multi-polarity orthogonal attention for implicit sentiment analysis[J]. Neurocomputing, 2020, 383: 165-173. ↩︎

    18. Meng C, Ren P, Chen Z, et al. RefNet: A reference-aware network for background based conversation[J]. arXiv preprint arXiv:1908.06449, 2019. ↩︎

    展开全文
  • 第11章: 观点挖掘;简介 事实和观点;简介 用户生成内容;简介 应用;两类评价;观点搜索 (Liu, Web Data Mining book, 2007;典型的观点搜索问题;查找关于某个对象的某个人的观点;查找关于某个对象的观点;观点汇总问题;...
  • 观点挖掘是当前科研人员研究的一个热点,因为需要进行自然语言处理,观点挖掘非常具有挑战性,然而它有广阔的应用前景。比如各公司总是希望能够及时获取公众或者消费者对于它们产品和服务的评价,以便进一步改进这些...
  • 提出了一种微博热门话题的观点挖掘方法。首先通过句法依存关系模板和支持向量机(SVM)共同识别热门话题中的观点句,然后进一步通过词法关系和句法依存关系抽取观点词对,从而简明、清晰展现热门话题中的观点。最后...
  • 观点挖掘是当前科研人员研究的一个热点,因为需要进行自然语言处理,观点挖掘非常具有挑战性,然而它有广阔的应用前景。比如各公司总是希望能够及时获取公众或者消费者对于它们产品和服务的评价,以便进一步改进这些...
  • 社交多媒体情感分析与观点挖掘研究
  • 这是一个情感分析与观点挖掘的讲义,来源于北京大学的讲义,内容详实丰富,将为你带来良好的情感分析与观点挖掘相关的入门知识,你将发现其中的有趣和意义。
  • 分类和观点挖掘YouTube产品评论
  • train.json 之江电商评论观点挖掘比赛训练数据 比赛链接https://zhejianglab.aliyun.com/entrance/231731/introduction
  • 评价对象与观点内容的提取是观点挖掘中非常重要的任务。本研究提出了一个树结构长短期记忆网络(Tree LSTM)结合条件随机场(CRF)的联合模型抽取评价对象和观点内容。首先对评论句进行依存句法分析,根据句子的依存...
  • 最近阅读了美国伊利诺伊大学教授刘兵的一篇关于观点挖掘的KDD论文(Mining and Summarizing Customer Reviews),其观点挖掘算法非常经典,特此做记录,互相探讨。
        最近阅读了一篇关于观点挖掘KDD论文(Mining and Summarizing Customer Reviews,KDD04),其挖掘算法很经典,特此做记录。
        该论文要解决的问题是,识别用户评论的情感(positive or negative),并作归纳,为用户购买产品提供真实有效的参考。归纳的形式如下(以数码相机为例):
        数码相机:
            特征: 照片质量
                Positive:    253
                                    <用户评论的句子>
                Negative:    8
                                    <用户评论的句子>
            
            特征: 大小
                Positive:    135
                                    <用户评论的句子>
                Negative:    12
           ……

    算法过程
    1. 主要步骤:
        <1> 通过用户的评论挖掘物品的特征
        <2> 识别包含观点的句子的情感
        <3> 归纳结果
    这个算法与之前的算法相比,亮点在于,以物品的特征(feature-based)来判断句子的情感。
    算法采用的情感分析基于句子级别(sentence-level),而不是文档级别(document-level)。

    2. 挖掘过程
    先上图,便于直观理解:

    (1) Crawl Reviews:
         第一步当然就是爬虫,从网站上抓取用户评论并存储。

    (2) POS Tagging:
         使用NLProcessor或StanFord Parser(推荐使用)对用户的每一句评论打POS标签,POS标签会给每个词标注词性,就像这样:
          I/FW recently/RB purchased/VBD the/DT canon/JJ powershot/NN g3/NN and/CC am/VBP extremely/RB satisfied/VBN with/IN the/DT purchase/NN ./.
        ( 原句是:I recently purchased the canon powershot g3 and am extremely satisfied with the purchase . )

    (3) Frequent Feature Identification:
        要挖掘物品的特征,那么就要从句子中找到特征词。特征词都是名词,在第二个步骤的例子中,NN代表的就是名词。先将NN标注的名词或名词短语都抽取出来,然后根据关联规则挖掘(association-rule mining)找出频繁特征集(频繁特征是指,在名词总数量中所占的比例大于最小支持度的特征)。

    (4) Feature Pruning:
        剪枝是最重要的步骤之一,可以非常大地提高算法的效果。此算法进行了两次剪枝:
        a. Compactness pruning
        频繁特征集包含特征短语。由于抽取特征短语不是人工进行的,而是直接把相邻的两个或多个名词组成短语,这样组成的短语不一定有意义。因此需要判断并决定是否剪枝。判断规则是:短语包含的两个或多个名词如果出现在同一个句子中,则按顺序计算两两之间的距离。如果每两个名词之间都不超过3个单词的距离,则认为这个特征短语是compact的(有影响力的)。如果特征短语有影响力的句子不超过2个,则认为这个特征短语应该被去除掉,即剪枝。
        个人认为,这个剪枝作用不大。因为被筛选为频繁特征集的短语,在所有名词中占的比例是比较大的;在用户评论的句子特别多的情况下,包含某个特征短语的句子一般都会超过2个。所以,这个剪枝对频繁特征集基本没什么影响。

        b. Redundancy pruning
        考虑一种情况:camera的特征短语 picture quality 是一个很有意义的特征,但是如果将两个词分开,变成单独的 picture 和 quality 时还很有意义吗?显然不是,picture 是要说明相机的拍照像素高,还是说明相机拍照色彩好?没有指明,那么 picture 就说明不了相机哪方面好坏。同样,quality 是说明拍照图片好看,还是相机电池质量好?还是不能说明相机到底什么好或者坏。所以要去掉包含在某个特征短语中且没有意义的特征。
        剪枝的规则是,对于特征A,如果某个特征短语也包含A,那么计算A在句子中单独出现的次数(包含A的特征短语不能出现在这个句子中)。如果次数小于一个阈值(论文中设为3),那么该特征短语被去除。这个剪枝的效果还是挺明显的。

    (5) Opinion Word Extraction:
        在包含频繁特征的句子中,抽取距离特征最近的形容词,作为观点词。在POS标签中,JJ表示形容词

    (6) Opinion Orientation Identification:
        这个步骤是算法最大的亮点之一,识别了观点词的语义方向(Positive or Negative),即极大程度地识别了用户对物品某一特征的情感。识别的方法是:预设30个极性明显的形容词,存储在seedList,作为已知极性的观点词集。例如,Positive:great、fantastic、nice、cool,Negative:bad、disappointing、dull等等。
        首先,对于观点词O,在WordNet中查找O的同义词。如果同义词存在于seedList中,则已知该同义词的词性,将O设为同一词性;然后把O加入到seedList中(扩充seedList)。如果同义词不存在于seedList中,则查找O的反义词。如果反义词存在seedList中,则将O设为相反词性,并加入到seedList。如果查找不到,则继续查找下一个观点词。
        不断迭代上述的查找过程,直至seedList的大小不再扩充。对于查找不到词性的观点词,则认为该词是无效的词。

    (7) Infrequent Feature Identification:
        考虑到一种情况,有一些物品的特征是一部分用户特殊关注的,例如某些用户很关注相机软件(软件是相机的特征之一)的用户体验性。所以,应该识别这些特征,满足用户实际的需求。
        因为同一个观点词可以修饰多个特征,例如amazing(极好的)可以修饰相机的照片质量,也可以修饰相机的软件。所以,识别非频繁特征集的一个简单而有效的方法是,在包含观点词的句子中,找到距离观点词最近的名词,作为非频繁特征集

    (8) Opinion Sentence Orientation Identification:
        最后一个重要的步骤是判断句子的情感方向(注意只判断包含观点词的句子)。判断的规则是:
        a. 抽取句子中的所有形容词,判断其词性,包含一个Positive词性的形容词就加1,包含一个Negative词性的形容词就减1。如果句子最后的值大于0,则句子的情感为Positive;如果值小于0,则为Negative。如果刚好等于0,请看下一步。
        b. 对于值刚好等于0的句子,则判断句子的属于观点词集的形容词,而不是所有的形容词。因为观点词更能体现用户的情感方向。与上一步骤类似,进行加1或减1操作,如果值大于0,则Positive;如果小于0,则Negative。那么,如果刚好又等于0,怎么办?
        c. 如果刚好又等于0,那么就认为当前句子的情感方向与前一个句子的情感方向是一样的。因为用户更倾向于在同一段话(包含多个句子)中只表扬或只批评物品。

    (9) Summary Generation:
        最后的步骤便是,计算物品每个特征所属的句子是Positive或Negative的个数。然后,按照本文开头的形式进行归纳,得到Summary。
    展开全文
  • 5篇情感分析与观点挖掘的论文,非常不错(Opinion mining sentiment analysis )。 其中包含了Bo Pang与Bing Liu的
  • valid.json 之江电商评论观点挖掘比赛训练数据 比赛链接https://zhejianglab.aliyun.com/entrance/231731/introduction
  • 社交媒体沿其用户的快速增长引发了对情感分析的需求,这种情感分析也称为观点挖掘或情感抽象,其目的是提取,确定,分析和呈现用户的情感并得出有关总体信息的结论。它们以较低的成本和有效的时间复杂性进行了处理。...
  • 提出基于观点挖掘的产品可用性建模与评价方法。以Web上的产品评论为数据,利用观点挖掘的方法从非结构化评论中抽取结构化数据,选取与可用性相关的产品特征,使用因子分析法提取影响产品可用性的公共因子,建立产品...
  • 网络新闻评论观点挖掘系统实现

    千次阅读 2015-05-31 21:06:31
    网络新闻观点挖掘系统事实上本质是属于文本数据挖掘范畴的,对于文本挖掘的方式,在早期主要是基于Web文本挖掘领域的。当然这个挖掘的尺度是可以控制的,粗粒度的挖掘相对于细粒度的挖掘要简单不少,粗粒度挖掘可以...

    前言

    网络新闻观点挖掘系统事实上本质是属于文本数据挖掘范畴的,对于文本挖掘的方式,在早期主要是基于Web文本挖掘领域的。当然这个挖掘的尺度是可以控制的,粗粒度的挖掘相对于细粒度的挖掘要简单不少,粗粒度挖掘可以快速的多数网民们对某新闻的观点倾向,这也是我毕设作品所需要达到的目标。

    系统设计目标

    平时做了许多挖掘算法的研究,一直懒得去做一些能智能分析化的工具,恰好这次可以利用毕业设计的机会,做一个观点挖掘分析系统。系统设计的目标就是能对一则特定的新闻,通过利用千条评论数据,挖掘出其中的观点倾向分类,提供给人们信息参考。

    系统设计模块

    系统主要模块分为4大模块,下面是主要的模块组成:

    字典库与数据源的获取

    字典库是利用已经收集好的一个多达2w余条记录的txt文件,这个是比较简单的,但是数据源的获取就需要经过一些步骤,利用了之前我介绍过的QQ爬虫工具,详情点击这里,爬取的数据就是某条新闻页的部分评论数据。QQ评论数据爬虫的原理就是先去获取一个新闻详情页的HTML代码,做正则匹配,获得其中的cmt_id评论id,然后再发送另外一个请求url取获取真正的评论数据,在此次系统设计中,每次最多只能爬取50条数据,爬取总量为1000条,但是时间消耗会略久,30s左右。

    文本预处理操作

    在实现本次挖掘系统中同样需要有文本预处理的操作,但是文本预处理不会做的那么细,只是会粗糙的过滤一些数字词,连接符,以及一些无效词,比如像"的"这样的词语,这些词的过滤可以减少后面暴力匹配的次数,预处理完毕之后,以标点符号作为分隔符,进行观点子句分割存入一个新的list。

    词性识别和词性标注

    这个模块是挖掘系统的核心模块,分为2个子步骤,1个步骤是识别,识别是通过里面的子句中的词语与字典库中的观点词去进行暴力匹配,性能上会比较糟糕,但是效果还行,匹配的原理类似于a字符串完全包含b字符串的比较原理,这里面的运算级别已经达到千万级别了。判别出每个观点词之后,会进行词性的标记,每段观点的极性等于其中的各个子句的观点极性的和,而子句中的观点等于内部中出现的所有观点词的极性和。

    终端结果展示

    终端结果展示需要利用上个模块中分析出的观点极性列表,分析的结果用到了jfreeChart 图表工具包,我利用了其中的柱形图,饼图图和折线图,前2个图的功能类似,折线图可以用来提取出其中的观点倾向分类走势。饼状图和柱形图中的分类分为了7大类,消极观点弱中强,中立,积极观点弱中强。折线图的分类就稍微简单一点,为消极,中立,积极的观点。

    下面是效果图的展现,具体代码请点击我的项目地址opition-mining-system.

    系统主界面入口:


    填入腾讯新闻链接地址,评论数据输出地址可以不填,默认输出到D盘中,点击开始挖掘,会停顿一段时间,因为这里我犯了一个错误,在ui主线程中调用了网络请求,造成假死状态。


    然后是功能页,具体的作用就是上面的按钮文字所描述的意思。点击进去各个具体页面如下:






    展开全文
  • train_laptop.json 之江电商评论观点挖掘比赛训练数据 比赛链接https://zhejianglab.aliyun.com/entrance/231731/introduction
  • 为了提高文本观点挖掘的效率,通过扩展标准话题模型,提出了一种新颖的多粒度话题情感联合模型(MG-TSJ) .模型将文本话题区分为全局和局部两类,同时挖掘文本中涉及的多层次话题信息和情感倾向信息.该模型采用非监督的...
  • 基于特征规则的在线医疗社区用户评论观点挖掘与情感分析方法.pdf
  • 之江杯2019-电商评论观点挖掘 参赛日志 Text-Opinion-Mining 比赛说明: 本数据集为化妆品品类的评论数据。为保护品牌隐私,数据已做脱敏,相关品牌名等用**代替; id字段作为唯一标识对应Train_reviews.csv中的评论...
  • 行业分类-互联网-基于产品特征的互联网评论观点挖掘方法及系统.zip
  • 新闻评论观点挖掘系统,粗粒度的分析出新闻网评观点的高度和趋势 系统的主要功能目标 给定一则新闻详情页,获取其中的评论数据,然后进行评论数据挖掘分析,得大多数网民对此则新闻的观点观点。 系统的挖掘分析方法 ...
  • “电商评论观点挖掘” 比赛总结

    千次阅读 2019-09-03 10:12:29
    “电商评论观点挖掘” 比赛总结 ** 作者: frf 时间:2019.9.3 参赛总结 第一次参加 相关 自然语言处理的比赛,总的来说 收获也比较多,也通过比赛 认识到自己的不足之处, 初赛结束后, 目前得分是 0.725, 排名是 82名, ...

    **

    “电商评论观点挖掘” 比赛总结

    **
    作者: frf
    时间:2019.9.3

    项目比赛 地址:
    ‘电商评论观点挖掘’ 比赛

    框架思路

    一: 序列标注部分

    1. 序列标注思路 : 采用的BIO 数据标注模式
    2. 基于BERT 或 ( Bi-Lstm + CRF) 进行 模型训练 和 预测 任务
    3. 生成后的结果合并 到 picklabel_test.txt

    二: 观点 属性 分类 模型
    1. 利用 标注处理工具,将提取结果 格式化
    2. 根据 提取结果 , 在原文本中进行抽取 文本进行合并, 划分数据集
    3. 基于BERT模型 进行 观点 和属性 模型训练,
    4. 调用属性模型和观点模型进行预测

    三: 数据合并,提交最终结果

    1. 调用处理工具把分类模型预测结果格式化
    2. 根据 官方提供的 需要哪些字段, 将预测出的结果 进行合并成最后的输出结果

    为方便广大读者 更能清晰的 理解 整个项目的 框架, 笔者 简单的 画 个草图, ( 哈哈, 画的 不好, 请包涵哈)

    一: 预测的框架图:
    预测的框架图

    参赛总结

    第一次参加 相关 自然语言处理的比赛,总的来说 收获也比较多,也通过比赛 认识到自己的不足之处,
    初赛结束后, 目前得分是 0.725, 排名是 82名, 基本进入 复赛 希望不大了, 在这里 我要感谢 xmxoxo, 他对我的帮助很大, 真心的感谢他。下面我总结在比赛中的一些 收获 还有 些 不足吧。

    收获

    • 参加一个完整的项目, 把整体的流程串起来。之前基本上做项目 都是 负责其中的某一个模块, 零零散散的 , 现在 是 从项目的开始,阶段性的目标, 最后提交结果。
    • 项目中的 评估指标 有些可以变成通用的模板工具, 在下次比赛可以复用
    • 针对一个项目, 理解项目中的word 要求,以及 如何从0-1实现 其中用到的技术, 出现问题 如何思考修正, 我觉得 对我来说 是成长最大的地方
      不足之处:
    • 自己的代码功底比较弱, 很多 之前用过的 函数, 在用时, 忘记函数有哪些参数,
    • 在模型训练方面, 只采用了深度学习模型的方式, 数据集相对 文本较短, 自我觉得用机器学习算法 来测试 的话, 效果也还不错
    • 在 序列标注 后, 基于规则的 抽取 特征, 总体思路不明确, 导致 效率比较慢,

    遗憾

    • 有关比赛的相关来源比较窄,
      接手项目时, 距离初赛结束还剩 一周半左右时间, 时间上相对比较仓促
    • 第一次与 前辈 合作, 在沟通合作细节之处, 自己的底蕴不够, 很多细节之处 没理解到位
    • 在模型评估时, 有一些问题, 修改后, 结果有所提高, 但 最终结果没提交上去, 原因是, 修改某一部分的代码, 需要结合 其它的来查看, 修改, 耗时比较久, 导致未提交上去。

    TODO

    1.虽然未进入复赛, 但 初赛中 针对特定问题做出的处理 还是很有收获, 再次在这里感谢 xmxoxo
    2. 整理在这个项目中 技术上的一些细节处理 以及 自己遇到的一些问题
    3. 完整梳理一遍 参赛思路 以及 实现流程, 相信对我帮助还是挺大的

    最后附上代码链接,里面包含数据集,有需要的同学自行下载查看

    源码地址

    大家有好的思路或者需要问题 可以加群一起交流哦, 在这里插入图片描述

    展开全文
  • 行业分类-物理装置-一种基于产品评论观点挖掘的销量预测方法.zip
  • web数据挖掘(学习笔记)-观点挖掘

    千次阅读 2011-03-04 16:39:00
    观点挖掘1.主要挖掘非结构化的文本,涉及自然语言处理技术2.网络已经显著改变人们表达观点的方式,用户生成的内容已经成为媒体的一种形式3.主要研究三方面的观点挖掘的任务:意见分类;基于特征观点挖掘和摘要;比较...
  • 基于方面观点挖掘实战(Python),Aspect-Based Opinion Mining (NLP with Python) , by Peter Min .

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 35,568
精华内容 14,227
关键字:

观点挖掘