精华内容
下载资源
问答
  • 2022-04-28 23:34:29

    菜鸟自救学习记录。

    “基于知识图谱的虚假新闻检测”,要解决的关键词大致包含了“知识图谱”、“虚假新闻检测”,以及如何将它们联系起来,并且找到创新点。

    一些灵感

    加推荐功能

    图神经网络和知识图谱结合 “知识图谱+”系列:知识图谱+图神经网络 - 知乎

    语义信息

    基于NLP的COVID-19虚假新闻检测_三丫丫哦的博客-CSDN博客

    独家 | 基于NLP的COVID-19虚假新闻检测(附代码)_数据派THU的博客-CSDN博客

    实时检测和知识图谱结合

    “一对多”transE的变种 年末巨制:知识图谱嵌入方法研究总结 - 知乎

    小样本知识增强 小样本学习综述: 三大数据增强方法 - 知乎

    给传播过假新闻的社交媒体用户加入权重概念,即若传播者曾传播过假新闻,则其权重降低或该新闻虚假程度增高。

    小事件的假新闻检测,即仅改变某时间或地点或人物,看能否判断真假。

    备看的论文

    《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》知识图谱综述 2020

    【论文翻译 AAAI 2020 | 知识图谱综述】A Survey on Knowledge Graphs: Representation, Acquisition and Applications_byn12345的博客-CSDN博客_知识图谱研究综述

    《Graph Neural Networks with Generated Parameters for RelationExtraction》用于关系提取的带生成参数的图神经网络 2019 (经典 浅看)结合知识图谱和图神经网络,远程监督关系抽取|知识图谱|图神经网络|关系抽取|模块

    《RECON: Relation Extraction using Knowledge Graph Context in a Graph Neural Network》RECON:在图神经网络中使用知识图上下文进行关系提取 2021结合知识图谱和图神经网络,远程监督关系抽取|知识图谱|图神经网络|关系抽取|模块

    看过的相关论文

    • 《通过记忆增强的关键句检索检测已被核查过的消息》Article Reranking by Memory-Enhanced Key Sentence Matching for Detecting Previously Fact-Checked Claims 2021

    • 《基于外部知识的知识图神经网络虚假新闻检测方法比较》Compare to The Knowledge: Graph Neural Fake News Detection with External Knowledge 2021

    代码:GitHub - BUPT-GAMMA/CompareNet_FakeNewsDetection: Compare to The Knowledge: Graph Neural Fake News Detection with External Knowledge (ACL 2021)

    • 《自动事实核查综述》 A Survey on Automated Fact-Checking 2021
    • 《早期虚假新闻检测》Early Rumour Detection 2019

    • 《KAN:用于假新闻检测的知识感知注意力网络》KAN: Knowledge-aware Attention Network for Fake News Detection 2021

    •  《Fake News Detection via Knowledge-driven Multimodal Graph Convolutional Networks》基于知识驱动的多模图卷积网络的虚假新闻检测 2020 

    乱七八糟

    更多相关内容
  • 假新闻检测 使用机器学习创建虚假新闻检测
  • 虚假新闻检测分类代码
  • 虚假新闻检测器使用LSTM-RNN 通过使用LSTM(长期短期记忆)递归神经网络,开发了深度学习模型来识别文章何时可能是假新闻。 数据集 数据集在kaggle网站上给出 任务 在nltk Framework的帮助下,通过删除标点符号,...
  • 如今,社交媒体中的虚假新闻检测已得到广泛研究。 尽管大多数以前的工作都专注于不同的网络分析,但事实证明,新闻用户网络中个人的用户配置文件很有用,但在分析网络结构时却被忽略了。 因此,在本文中,我们旨在...
  • 本文对虚假新闻检测进行了综述。我们的调查介绍了自动识别假新闻的挑战。我们系统地回顾了为这项任务所开发的数据集和NLP解决方案。我们还讨论了这些数据集和问题公式的限制、我们的见解和建议的解决方案。
  • 假新闻检测 使用机器学习创建虚假新闻检测
  • 虚假新闻检测论文调研 Evidence Inference Networks for Interpretable Claim Verification 基本信息 发表刊物和年份:2021 AAAI 摘要 现有方法的缺点 现有的方法构造了适当的交互模型(文本与文本,文本与评论,...

    虚假新闻检测论文调研

    Evidence Inference Networks for Interpretable Claim Verification

    基本信息

    发表刊物和年份:2021 AAAI
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-q29CeLId-1633149862852)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002120839031.png)])

    摘要

    现有方法的缺点

    • 现有的方法构造了适当的交互模型(文本与文本,文本与评论,文本与社交网络,这里是指文本与文本之间)来探索声明和相关文章之间的语义冲突,为获得声明中的可解释性的语义特征提供了较为实用的解决方案。

    • 然而,这些冲突并不一定都是在质疑声明中的的虚假部分,这使得相当多的语义冲突难以作为证据来解释声明验证的的结果,尤其是那些无法确定声明语义的冲突。

    • 本文提出了证据推理网络(EVIN),它关注声明的核心语义冲突,并作为用来解释声明语义冲突的依据。

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oY0dO6Wz-1633149862855)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002120759887.png)]

    本文做出的贡献

    • 1.EVIN首先在相关文章中捕获了声明的核心语义部分和用户的主要观点

    • 2.它从这些观点中精细地识别出每个相关文章中包含的语义冲突

    • 3.EVIN构建了一致性模型,以匹配目标声明中核心语义片段作为可解释证据的冲突

    •在两个广泛使用的数据集上的实验表明,EVIN不仅取得了令人满意的性能,而且为最终用户提供了可解释的证据(即核心的语义冲突)

    解决方法

    • 1.首先设计交互共享层,使声明能够与相关文章交互,自适应地捕获声明中最能表达用户观点的广核心语义段,以及用户在相关文章中的整体观点

    • 2然后,本文设计了一个细粒度的冲突发现层,允许整体观点与每个相关文章的个人观点交互,以探索潜在的语义冲突

    • 3为了选择能够成为真实证据的冲突,我们提出了证据感知的一致层来构建声明的核心语义段与获得的冲突之间的一致性模型,该模型可以将用户观点与相关声明的核心语义的冲突相匹配(观点匹配)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0UVcrS9Y-1633149862855)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002121331635.png)]

    模型逐层详细解释

    输入层

    输入由三个种类的序列组成:

    • 1声明的文本序列

    • 2一个全部相关文章拼接的序列

    • 3每个相关文章的序列

    对于每一个K TOKEN长度的序列,采用预训练模型获得其每个词的D维度的嵌入(Bert),

    对于获得的词嵌入序列shape(K,D),用双向的LSTM学习其的序列特征,则三种输入文本就可以用BiLSTM的最后一隐藏层的输出表示

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8dhpLYbd-1633149862857)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002121700039.png)]

    交互共享层

    • 采用交叉注意力机制构建的交互共享层

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fXF9LGQi-1633149862858)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002121859854.png)]

    Q是所有文本的表达,K=V是声明本身

    • 采用多头注意力机制提高网络的并行性,每个注意力头的QKV采用不同的权值W

    •获得一个文章关于其他用户声明的新的表示
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ibBwIxu0-1633149862859)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002122031239.png)]

    两个门仿射吸收模块编码上下文特征

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JWdA96Zm-1633149862859)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002122213644.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5CENqMej-1633149862860)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002122158211.png)]
    在这里插入图片描述

    • 门仿射吸收模块:
      在这里插入图片描述

      考虑到交互特征是声明和相关文本所共享的,缺乏他们各自的序列特征,所以希望理由门仿射吸收机制使得模型能够抓住上下文的交互性信息

      • 既要获得声明中用户普遍关注的突出语义信息,
      • 同时也要能够表达出用户的整体观点

      做法如下:

      • 1对线形映射后的注意力头和声明的表达做非线形映射,提高其各自的非线形特征
      • 2然后对各自再做一次线形映射(个人理解是过滤特征,在这个作者的另外一篇文章中有相似的做法)
      • 3将得到的映射一方面与BILSTM的隐藏层相拼接,另一部分作为bias

      最后经过了门仿射机制处理后,得到的隐藏层输出输出既包含两者共有的特征(核心冲突,整体观点),同时也能够得到相关文章和声明各自的上下文特征。

    细粒度的冲突发现层

    • 依旧是利用了交叉注意力机制,但是相比于之前文章与全体的评论文本相比,更为细致

    • 此时Q,K,V与上有所不同

      • 每个评论和每个评论的整体做atttention
        (imoGHj8Zo3Dv-1633149862860)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-201002122620253.png11)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002122620581.png)]

    证据一致感知层

    • 首先使用两个BiLSTM分别将两个核心核心段编码
      在这里插入图片描述

    • 然后做attention()
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GKEUsWOh-1633149862862)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002123522253.png)]

    • 然后将获得的权重乘上核心冲突(加权冲突语义段)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TL58jbnt-1633149862862)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002123547623.png)]

    • 然后将其与BILSTM输出做对应元素相乘喂入全连接神经网络做分类

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8lrPVgpe-1633150307134)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002123633046.png)]20211002123633046.png)]  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cuBHi02C-1633149862863)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002123633046.png)]
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vavKfwvg-1633149862863)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002123646990.png)]

    使用的数据集与效果:

    在这里插入图片描述

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VmSC8141-1633149862863)(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20211002123752412.png)]

    Different Absorption from the Same Sharing: Sifted Multi-task Learning for Fake News Detection

    基本信息

    2019EMNLP

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zJ3diL7Y-1633149862864)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922194823452.png)]

    摘要

    现有方法的问题

    然而,在现有的大多数多任务学习的方法中,共同的特征被完全分配给不同的任务而没有进行选取

    (比如将立场检测的特征硬塞给虚假新闻检测任务),这可能导致一些无用甚至不利的特征参与到到特定任务中。
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HYkM5KRO-1633149862864)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922195749851.png)]

    本文贡献

    核心是提出了门控机制对共同特征进行筛选,滤掉共同特征中的不利项

    采取的方法

    为了解决上述问题,我们设计了具有过滤机制的多任务模型,通过加入立场检测任务来检测假新闻。

    具体来说:

    • 求共享特征:我们将将共享层的输出引入到每个任务中,用于过滤共享特征。

    • 筛选共享特征:由两个单元组成用于选择的共享层特征的部分:

      • 用于丢弃无用共享特征的门控单元
      • 专注于有利于各自任务的特征的注意力单元。
    • Transformer的使用:此外,为了更好地捕获远程依赖并提高模型的并行性,我们应用了transformer( Vaswani et al., 2017) 到我们的模型,用于对两个任务的输入表示进行编码。实验结果表明,所提出的模型优于比较方法。
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OCfas2Er-1633149862865)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922201159520.png)]

    模型解释

    共享层构建

    懂得都懂这一步就简单讲(不是重点)

    • input是词嵌入和位置编码的拼接(其中位置编码采用独热码,而不是bert推荐的正弦位置编码,原因是表现不佳)
    • 然后送到transformer中摘取特征,获得:
      • 共享特征
      • 立场检测的特征
      • 虚假新闻文本的特征
        在这里插入图片描述

    特征选取层

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XPB8dOI3-1633149862865)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922201858269.png)]

    • 对于每一个任务的这一部分(以下以虚假文本分类举例)

      • 门选择(选取共享特征中的有利部分)

        • 用非线性激活函数(sigmoid)过滤,W,B 为待训练参数(相当于得到了共享特征中对于每一任务的重要性的权值)
          -在这里插入图片描述

        • 再用其点乘共享层输出(权值*特征)

        • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hto0O917-1633149862866)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922202646406.png)]

      • 交叉注意力机制

        • 这里希望得到的是共享层中各个token关于任务文本的关系(前后transformer的参数共享)

        [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-b3wU4195-1633149862866)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922202834956.png)]

      • 两者连接

    分类

    将上一步输出与各自transformer连接送入全连接分类
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p5mw0G3L-1633149862867)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922203426729.png)]在这里插入图片描述

    数据集

    RumourEval (5568条推,325thread)(在这上面表现性能没有下面的好)

    PHEME(105354条推,6426thread)

    可视化分析与实验结果对比

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hWQCujci-1633149862867)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922204116970.png)]

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qv6Y9MvC-1633149862867)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922204224284.png)]

    Capturing the Style of Fake News

    基本信息

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pEqkDffr-1633149862868)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922184931013.png)]

    摘要

    目前的问题

    1.ML 模型可能会学习识别给定文档的来源,并根据来自同一来源的其他文档(即来自网站的其他文章,在训练数据中看到)分配可信度标签。虽然考虑来源的方法具有启发式意义(Metzger、Flana-gin 和 Medders 2010)并且通常建议用于假新闻发现(Hunt 2016),但它在 ML 上下文中可能会产生误导.假新闻网站往往是短暂的(All-cott and Gentzkow 2017),当新的来源取代它们时,这种模式将无济于事。

    2.文档主题可能是另一个易于访问但具有误导性的功能。虽然假新闻媒体确实集中在一些保证吸引目标受众的当前主题上(Bakir 和 McStay 2017),但这些主题将随着时间的推移而被替换,从而使分类器过时.在这项研究中,

    3我们关注写作风格,即文本的形式而不是其含义(Ray 2015)。由于假新闻来源通常试图为了短期经济利益或政治目标而吸引注意力(Allcott 和 Gentzkow 2017),而不是与读者建立长期关系,因此他们偏爱非正式、耸人听闻、情感丰富的语言(Bakirand McStay 2017)。这个可信度低的指标可以用来建立一个可靠的分类

    本文的目标

    • 本文旨在以探索基于文本的写作风格的方法来检测低可信度的文本。

    • 研究表明,通用的文本分类器,尽管在简单评估时看起来性能很好,但实际上与训练数据中的文档资源过度拟合。

    • 为了实现适当的基于风格的预测,我们从223个在线来源中收集了103,219份文件的语料库,并由专家进行标记。

    • 设计了现实的评估场景,并设计了两个新的分类器:一个神经网络和一个基于风格测量特征的模型。

    • 评估结果显示,所提出的分类器在处理以前未见过的主题(如新事件)和以前未见过的来源(如新兴的新闻网站)的文件时保持了较高的准确性。

    • 同时对基于文体风格的模型的分析表明,它确实集中在情感词汇上,这些词汇是典型的假新闻的特征。

    本文的贡献

    • .提供了一个包含103219个文档的文本语料库,涵盖了广泛的主题,来自223个来源,这些来源基于PolitiFact和Pew研究中心进行的研究,这些研究是构建文本分类器的有用资源

    • 2.使用语料库构建评估环境,训练的时候通过将其应用于来源和主题不可用的文档,更现实地衡量可信度评估方法的性能。

    • 3提出了两种分类器:一种是神经网络,另一种是基于文本特征分析的特征的模型,并证明后者确实捕获了情感语言元素

    ​ (其实相比于方法,本文核心更侧重于语料库的搭建,其实提出的文本风格的效果没有bert好)

    语料库的构建

    • 我们使用PolitiFact在2017年标记为假新闻(192个来源)和冒名顶替者(49个)(Gillin 2017)的网站。

    • 不幸的是,在2019年,只有不到四分之一的网站仍处于活动状态,但大多数网站仍在WayBackMachine archives6中可用。由于该列表上次更新日期为2017年11月9日,因此对2017年1月1日至2017年11月9日期间可用的网站进行爬取

    • 根据中华人民共和国的调查报告(Mitchell等人,2014年),根据可靠来源,我们选择了21家可信或不可信的来源。该程序总共保留了205个不可信网站和18个可信网站并进行爬取。

    • 们使用Mallet(McCallum 2002)中实施的LDA(Blei、Ng和Jordan 2003)计算了100个主题的模型。接下来,将每个文档分配给与其关联性最强的主题

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mZ1E3Y0q-1633149862868)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922190213240.png)]

      图1显示了来自可信和不可信来源的文档中有多少被分配到最大的15个主题,这些主题由相关关键字描述。我们可以看到,一些主题在不可信的部分更受欢迎:现任总统与其前任和竞选对手之间的比较(主题19和70)、媒体报道(#85)、穆斯林和移民(#23和#11)以及健康/营养(#76)。可靠消息来源更常涉及的领域包括电影(50)和体育(5)。在这两个阶层中普遍存在的问题是俄罗斯调查(62)、犯罪(55)和中东和韩国的国际冲突(17和2)

    构建模型

    基于文本风格的分类器

    在这项研究中,我们特别注意避免采用能够让分类器过度拟合特定来源和主题的特征。这就是为什么我们使用 n-gramsof Part of Speech (POS) 标签而不是流行的 n-gram 词

    核心:字典的使用

    • 字典的使用

      • 例如Linguistic Inquiry 和 WordCount(LIWC)(Tausczik 和 Pennebaker 2009),用于假新闻检测(Horne 和 Adali 2017;Rashkin 等人 2017;Ṕerez-Rosas 等人 2009)。 ),
      • General Inquirer(GI)(Stone et al. 1962),用于超党派新闻识别(Potthast et al. 2018)。

      扩充字典:这些资源的弱点在于有限的字典大小,例如GI 包含 182 个类别 8640 个单词7。因此,我们通过根据word2vec(Mikolov et al. 2013)表示用相似的词扩展每个类别来增加其大小。

      • 首先,对于 大小为 n 的每个类别,我们构建属于该类别的逻辑回归模型(此时文本已经向量化)。然后,将 4×n 个得分最高的新词添加到类别中。对所有 182 个类别执行此过程会生成一个总大小为 34,293 个单词的字典
    • 本文特征的选取

      文档由Stanford CoreNLP(Manning et al. 2014)预处理,包括句子分割、标记化和词性标注。该注解用于生成以下文档特征

      • 句子数,平均句子长度(以字为单位)和平均字长(以字符为单位)
      • 匹配不同字母方案的字数(全部小写,全部大写,仅第一个字母大写的情况),按文档长度归一化
      • POS unigrams(单词)、bigrams(双词) 和trigrams(三词的频率) 的频率,按文档长度归一化计算(如果存在于至少 5 个文档中)
      • 属于上文构建的扩展 GI 中属于 182 个单词类别的单词的频率字典,按文档长度归一化。
    • 执行分类

      该数据集包括由 39,235 个特征描述的 103,219 个实例。(并没有用到神经网络)

      我们采用两阶段方法来选择相关特征:首先进行初步过滤,然后构建一个正则化分类器。

      • 初步过滤:使用皮尔逊相关性(画相关性图),选取相关性大的特征作为分类依据(选取关联度比较大的特征)
      • 构建分类:逻辑回归+正则化,0.5为阈值

    基于深度学习的方法

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8ef6CLrm-1633149862868)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922193049352.png)]

    其他比较

    • 词袋模型:

      池袋模型通过单词的词形(基本形式)的一元组、二元组和三元组的频率来表示文档,至少出现在 200 个文档中。特征过滤和逻辑回归模型构建与风格分类后部分一致。
      在这里插入图片描述

    • bert:

      bert的种类是uncased bert,将bert的表示cls用线性分类器分类

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iQBFq6Ro-1633149862869)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922193610249.png)]

      分类精确度

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AwzXlub2-1633149862869)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922193716762.png)]

      对词的识别

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J3NVQW08-1633149862869)(C:\Users\xiaoMu\AppData\Roaming\Typora\typora-user-images\image-20210922193813862.png)]

    Different Absorption from the Same Sharing: Sifted Multi-task Learning

    基本信息

    在这里插入图片描述

    现有方法的问题

    最近的方法通过考虑在训练中加入与声明相关的外部元素来进行虚假文本分类。然而,这些方法需要大量的特征建模和丰富的词典。
    本文克服了先前工作的这些局限性,建立了一个端对端模型,用于对任意文本声明进行可解释性的可信度评估,而不需要任何人工干预。 它提出了一个神经网络模型,该模型可以聚合来自外部相关文章的信息、这些文章的语义和其来源的可信度。 它还得出了生成用户可理解的解释的信息特征,使神经网络预测对终端用户透明。

    四个数据集的实验和消融实验的研究显示了我们方法的优势。

    本文贡献

    • 模型:提出了一个端到端的神经网络模型,能够自动评估声明的可信度,没有使用到任何人工提取的特征或引入词典。
    • 可解释性:我们模型中的注意力机制,能够生成用户可理解的解释,使可信度判决透明和具有可解释。
    • 实验:对四个数据集和消融实验的实验,证明了我们的方法在最先进的基线上的有效性

    数据解释

    在这里插入图片描述
    总共涉及四个数据:

    • 一个大小为n的声明集合
    • 每个声明集合中需要带有m个相关文章
    • 每个相关文章的出处
    • 声明的出处

    模型解释

    输入本文嵌入

    输入有两部分组成

    • 待验证的声明自身
    • 相关文章

    在进行嵌入的过程中,声明和文章词嵌入层共享参数(目的是保证输出的语义一致
    相关评再输入论输入双向LSTM中得到隐藏层输出
    在这里插入图片描述

    针对声明的注意力机制

    本文关注于文章中与声明相关词的训练。
    为此,我们计算文章中每个token相对于相应声明的整体表示的重要性(为其加权)。
    此外,加入注意力有助于使模型透明和检测的可解释,因为它提供了一种在文章中生成最显著的词作为我们模型判断的证据的方法。
    在这里插入图片描述

    • 其中输入声明的整体表示是通过取所有词嵌入的平均值生成的
      在这里插入图片描述
    • 我们把这种对claim的总体表述与每个文章的嵌入表示进行拼接。在这里插入图片描述
    • 然后过全连接神经网络(激活函数为softmax)输出每个词的权重
      在这里插入图片描述在这里插入图片描述
    • 然后权重点乘相关文本的token

    引入文体元数据(声明来源与相关文章来源)

    • 首先对乘上注意力权重后得到的所有文章表示进行加权平均,基于它们相应的注意力得分。
      在这里插入图片描述
    • 然后与声明源,文章源的嵌入进行连接,喂入两个全连接层
      在这里插入图片描述
    • 最后softmax输出结果。
      在这里插入图片描述

    数据集

    还是这两
    在这里插入图片描述

    模型表现

    在这里插入图片描述

    展开全文
  • 假新闻检测 使用机器学习创建虚假新闻检测
  • 虚假新闻识别检测数据集news.csv
  • 每天给你送来NLP技术干货!论文解读者:北邮 GAMMA Lab 博士生 杨天持题目:知识对比:基于外部知识的图神经虚假新闻检测会议:ACL 2021论文代码:https://git...

    每天给你送来NLP技术干货!


    论文解读者:北邮 GAMMA Lab 博士生  杨天持

    684b8f3a898a4da7b70e8a3162995819.png

    题目: 知识对比:基于外部知识的图神经虚假新闻检测

    会议: ACL 2021

    论文代码:

    https://github.com/BUPT-GAMMA/CompareNet_FakeNewsDetection

    近年来,虚假新闻检测,旨在验证新闻文档是可信的还是伪造的,已越来越受到重视。大多数现有方法严重依赖新闻内容的语言和语义特征,未能有效利用外部知识,而外部知识很可能对确定新闻文档是否可信非常有帮助。在本文中,我们提出了一种名为 CompareNet 的新型端到端图神经模型,该模型通过实体将新闻与知识库 (KB) 进行比较以进行假新闻检测。考虑到假新闻检测与话题/主题相关,我们还整合了主题以丰富新闻的表示。具体地,我们首先为每个包含主题和实体的新闻构建一个有向异质文本图。基于该图,我们设计了一个异质图注意力网络,用于学习主题增强的新闻表示以及编码了新闻内容语义的基于上下文的实体表示。然后通过精心设计的实体对比网络(entity comparison network)将基于上下文的实体表示与相应的基于知识库的实体表示进行对比,以捕获新闻内容和知识库之间的一致性。最后,结合了实体对比特征的主题增强的新闻表示被输入到虚假新闻分类器中。两个基准数据集的实验结果表明,CompareNet 显著优于最先进的方法。

    1 引言

    随着互联网的快速发展,假新闻的生产、传播和消费的机会越来越大。这些主观故意的假新闻很可能会误导读者。假新闻还很容易误导舆论,从而引发严重的信任危机,扰乱社会秩序。众所周知,虚假新闻在2016年美国总统选举时,就产生了不良影响。因此,基于新闻文本的文本内容信息,设计开发有效的虚假新闻检测方法,以尽早发现虚假新闻非常重要。

    一些现有的虚假新闻检测方法严重依赖各种手工的语言和语义特征来区分真假新闻。为避免这样的特征工程,一些深度神经网络的方法,如采用Bi-LSTM和卷积神经网络(CNN)等,相继被提出。然而,这些方法没有考虑到文档中的句子交互。表明可信新闻和虚假新闻通常会具有不同的句子交互模式,因此他们将新闻文档建模为一个句子完全图,并提出了一个用于假新闻检测的图注意力模型。尽管这些现有方法一定程度上是有效的,但它们仍然有未能充分利用外部知识库来帮助虚假新闻检测的不足。

    cfebacf39414cd559f0c4b2bf7e9ed1b.png

    维基百科等外部知识库包含大量高质量的结构化的主谓宾三元组和非结构化的实体描述,这可以作为检测虚假新闻的证据。如图1所示,关于“X光检查不能有效检测乳腺肿瘤”的新闻文档很可能被检测为虚假新闻,因为根据维基百科中的实体描述页面,“乳房X光检查”的目标正是为了尽早发现“乳腺癌”。因此[1]提出从真新闻和假新闻构建一个知识图谱,并应用TransE学习三元组分数,从而进行虚假新闻检测。然而,该方法的性能在很大程度上会受到所构建的知识图谱的影响。在本文中,为了充分利用外部知识,我们提出了一种新颖的端到端的图神经网络模型CompareNet,它以实体为桥梁将新闻与知识库直接进行对比,从而进行虚假新闻检测。在 CompareNet 中,我们还考虑使用主题来丰富新闻文档的表示以进一步提升检测效果,这是因为虚假新闻检测和主题高度相关。例如,“健康”主题的新闻文档更容易偏向于虚假,而“经济”主题的新闻文档则更容易偏向于可信。

    具体地,我们首先为每个新闻文档构建一个有向异质文本图,其中包含句子、主题和实体作为节点。句子节点之间被双向全连接。而每个句子还与其最相关的主题节点双向相连。此外如果一个句子包含某个实体,则会建立一个从该句子节点到实体节点的单向链接。单向链接的目的是为了确保我们可以正确学得对新闻语义进行了编码的基于上下文的实体表示,并与此同时避免学习新闻表示的过程中,将真实知识库的实体信息直接引入到文档表示中,从而对检测产生误导的影响。基于该有向异质文本图,我们设计了一个异质图注意力网络来学习主题增强的新闻表示和基于上下文的实体表示。然后将学习到的基于上下文的实体表示与相应的基于知识库的实体表示进行对比,并使用精心设计的实体对比网络捕获新闻内容和外部知识库之间的语义一致性。最后,将主题增强的新闻表示和实体的对比特征结合起来进行最后的虚假新闻分类。

    综上所述,我们的主要贡献包括:

    • 在本文中,我们提出了一种新颖的端到端的图神经模型CompareNet,它以实体作为桥梁,将新闻与外部知识直接进行对比从而进行虚假新闻检测。

    • 在 CompareNet 中也考虑了非常有效的主题信息。我们构建了一个包含了主题和实体的有向异质文本图,然后设计了异质图注意力网络来学习主题增强的新闻表示,最后一个新颖的实体对比网络用于将新闻与知识库进行对比。

    • 在两个基准数据集上的大量实验表明,我们的模型通过有效地结合外部知识和主题信息,在虚假新闻检测任务上明显优于最先进的模型。

    [1] Content Based Fake News Detection Using Knowledge Graphs

    2 方法

    98248e4777759876d2cda4ce4076de56.png

    在本节中,我们将详细介绍所提出的虚假新闻检测模型 CompareNet,它直接将新闻与外部知识进行对以进行检测。如图2所示,我们还考虑了用主题丰富新闻的表示,因为虚假新闻检测通常是与主题高度相关的。具体来说,我们首先为每个包含主题和实体的新闻文档构建一个有向异质文本图,如上图所示。该文本图可以很好地捕捉句子、主题和实体之间的交互关系。基于该图,我们设计了一个异质图注意力网络来学习主题增强的新闻表示,以及对新闻文档语义进行编码的基于上下文的实体表示。为了充分利用外部知识库,我们将实体作为新闻文档和知识库之间的桥梁。因此我们使用一个精心设计的实体对比网络将基于上下文的实体表示与相应的基于知识库的实体表示进行对比。最后,将获得的实体对比特征与主题增强的新闻文档表示相拼接,最后用于虚假新闻检测。

    2.1 有向异质文本图

    对于每个新闻文档 ,我们构建了一个包含主题和实体的有向异质文本图,如图2所示。图中共有三种节点:句子,主题和实体 ,即。边集合 表示句子、主题和实体之间的关系。构建图的细节描述如下。

    我们首先将新闻文档拆分为一组句子。句子在图中彼此双向连接以建模每个句子与其他句子的交互。由于主题信息对于虚假新闻检测很重要,我们使用无监督的LDA模型从我们数据集中的所有文档的所有句子中挖掘潜在主题 。具体地,每个句子都被视为一个伪文档,并被分配到概率最大的前 相关主题。因此,每个句子也与它分配的前 个主题彼此双向连接,从而允许有用的主题信息在句子之间传播。请注意,我们还可以通过使用训练好的LDA推断新的新闻文档的主题来。我们识别文档 中的实体,并使用实体链接工具 TAGME 将它们映射到维基百科。若一个句子 包含某个实体 ,则建立一个从句子到实体 的单向边,以便只允许从句子到实体的信息传播。这样,我们可以避免将真正的 实体知识直接集成到新闻表示中,而这可能会误导假新闻的检测。

    2.2 异质图卷积

    基于上述构建的有向异质文本图,我们设计了一个异质图注意力网络,用于学习新闻表示以及基于上下文的实体表示。它不仅考虑了不同类型的不同节点的权重,还考虑了异质图中的边方向。

    形式化地,我们有具有不同特征空间的三种类型的节点:句子 、主题 和实体。我们使用 LSTM 对句子 进行编码,并得到它的向量表示 。实体 初始化为基于外部知识库学到的实体表示 (参见下节)。主题 则用独热码 初始化。

    接下来,考虑图 ,其中 和 分别代表节点和边的集合。令是一个矩阵,包含了所有节点的特征向量 (其中每行 是节点 的向量特征)。记和分别是邻接矩阵和度矩阵。则异质卷积层通过聚合相邻节点的特征 来更新具有不同类型的节点第() 层的表示 。(初始地,):

    其中表示激活函数。不同类型的节点有不同的变换矩阵,其中是节点类型。变换矩阵考虑到了不同的特征空间并将它们投影到相同的隐式特征空间中。是注意力矩阵,每一行代表一个节点,列代表该节点类型为的相邻节点。它的第行第 列中的元素 的计算如下:

    其中 是注意力向量, 是类型级别的注意力权重。 和 分别是当前节点 及其相邻节点 的表示。Softmax 函数用于在节点 的相邻节点之中进行归一化。

    我们根据当前节点嵌入 和类型嵌入来计算类型级注意力权重 (其中类型嵌入为相邻的类型节点嵌入的加权和,加权矩阵是添加了自连接的归一化邻接矩阵,形式化如下所示:

    其中 是 类型的注意力向量。Softmax 函数将用于沿着类型进行归一化。

    经过层异质图卷积,我们最终可以得到所有节点(包括句子和实体)的聚合了邻域语义的表示。我们对句子们的表示使用最大池化以获得最终的主题增强的新闻文档嵌入表示。学得的对文档上下文语义进行了编码的实体表示将作为基于上下文的实体表示。

    本文利用两个并行卷积神经网络(PCNN)作为新闻内容信息特征提取网络,定义标题的表示,  实体集的表示 ,实体类型表示, , 和 分别是词 , 实体 , 实体类型 的表示。进一步定义概要层次初始表示 ,学习标题层次表示和概要层次表示,拼接经过MLP层最终得到一个新闻的特征表示。*

    对于只包含id信息用户,则对其随机初始化得到用户初始特征表示。由于这两种表示来自不同的语义空间,利用两个类型矩阵将与映射到同一空间中。

    2.3 实体对比网络

    本小节将详细介绍提出的实体对比网络,该网络将学习到的基于上下文的实体嵌入 与相应的基于知识库的实体嵌入 进行对比。基于下述假设我们认为这样的实体对比特征将可以提升虚假新闻检测的效果,即,从可信的新闻文档中学到的基于上下文的实体表示 可以更好地与相应的基于知识库的实体表示 对齐;而对于虚假新闻,则相反。

    2.4 基于知识库的实体表示

    我们将首先介绍如何充分利用知识库(即维基百科)中的结构化的主谓宾三元组和非结构化的实体的文本描述,以学习基于知识库的实体表示。

    结构表示。我们可以应用广泛使用的知识图谱嵌入方法来获得结构化的实体嵌入表示。由于TransE 的简单性,这里我们采用 TransE从三元组中学习基于结构的实体表示。形式化,给定三元组 ,TransE将关系 视为从头实体 到尾实体 的翻译向量 ,即。

    文本表示。对于每个实体,我们将相应维基百科页面的第一段作为该实体的文本描述。然后我们使用LSTM 来学习对实体描述进行编码的基于文本的实体表示。

    基于门控的整合。由于结构三元组和文本描述都为实体提供了有价值的信息,我们需要将这些信息整合到一个联合的表示中。特别地,由于我们有结构嵌入 和文本嵌入,我们采用可学习的门控函数来整合这两个不同来源的实体嵌入。形式化地,

    其中 是一个门控向量(对应于实体),用于对两个来源的信息之间做权衡,其元素的取值范围是 。 表示对应元素乘法。门控向量 意味着,对于 和 的每个维度,都将通过不同的权重进行相加。为了满足取值范围的约束,我们使用 Sigmoid 函数来计算门控向量 :

    其中 是一个实值向量并在训练过程中进行学习。

    在将两种类型的嵌入经过门控函数进行了融合后,我们获得了最终的基于知识库的实体嵌入,它对三元组的结构信息和知识库中实体描述的文本信息进行了编码。

    实体对比。然后我们在新闻文档和知识库之间,进行实体之间的对比,从而捕获新闻内容和知识库之间的语义一致性。我们计算每个基于上下文的实体表示 与其对应的基于知识库的实体嵌入 之间的对比向量。

    其中 表示对比函数, 是一个变换矩阵。为了衡量嵌入之间的接近程度和相关程度,我们将此对比函数设计为:

    其中 是变换矩阵, 是 hadamard积,即对应元素的乘积。最终输出的对比特征向量 是通过在新闻文档中的所有实体的对比向量上使用最大池化获得的。

    2.5 模型训练

    在获得对比向量 和最终的新闻文档表示向量 后,我们将它们拼接起来并输入到 Softmax分类层中。形式化地,

    其中 和 是线性变换的参数矩阵和偏置向量。在模型训练中,我们使用参数的 L2正则以及训练数据上的交叉熵损失:

    其中是新闻文档的训练集,是对应的标签指标矩阵,是模型参数,是正则化因子。我们采用梯度下降算法优化模型。

    最后,对用户与新闻的表示分别再增加一层全连接层,通过点积形式计算候选新闻的点击概率。

    点击预测的loss函数为:

    偏好正则器项的loss函数为:

    总的训练loss可以写成:

    3 实验

    这里介绍两个主要的实验。

    3.1 主实验

    fb39f9b77f215f471d75029f05a02b23.png

    表2 报告了二路分类的实验效果。由于 micro PrecisionRecallF1,这里我们只报告了 micro F1。正如我们所看到的,我们提出的模型 CompareNet 在所有指标上都明显优于所有最先进的基线方法。与最佳基线模型相比,CompareNet将 micro F1 和 macro F1 提高了近 3%。我们还发现,基于图神经网络的模型 GCN 和 GAT 都比包括 CNN、LSTM 和 BERT在内的序列深度神经模型表现得更好。原因是这些序列深度神经模型不能考虑句子之间的交互,而这对于虚假新闻检测非常重要,因为在真假新闻中观察到的交互模式是不同的。我们的模型CompareNet通过有效利用主题以及外部知识库进一步提升了虚假新闻检测。这些主题丰富了新闻表示,而外部知识库为虚假新闻检测提供了证据。

    286ede4cc2242e4c3c2b6e5df411e3ec.png

    表3展示了四路分类的结果。一致地,可以捕获句子交互的图神经模型都优于深度神经模型。而我们的模型CompareNet 在所有指标上都实现了最佳性能。我们相信这是由于我们的模型CompareNet 受益于主题和外部知识。

    3.2 消融实验

    7f39211185861d3385712a51f17e3670.png

    在本小节中,我们实验研究 CompareNet 中每个模块以及我们整合外部知识的方式的有效性。我们在LUN-test上运行5次并报告平均性能。如表4所示,我们测试了CompareNet在去除了结构化三元组、去除了整个外部知识、去除了主题以及同时去除主题和外部知识时的性能。在最后两行中,我们进一步测试了所构建的有向异质文本图和设计的实体对比函数。变体 CompareNet(无向)不考虑有向异质文本图中边的方向。变体模型 CompareNet(concatenate) 使用简单的拼接代替了实体对比函数。正如我们从表 4 中看到的那样,移除了结构化实体知识(即w/o Structured Triplets)会导致轻微的性能下降。但如果我们移除了整个外部知识(即,w/o Entity Cmp),则在 micro F1 和 macro F1 上的性能分别下降约 1.3% 和1.8%。移除主题(即w/o topics)会比较影响性能,这表明主题信息与外部知识一样重要。删除主题和外部知识(即 w/o Both)将导致性能大幅下降(4.0-5.0%)。这展示了主题和外部知识的重要性。变体模型CompareNet(undirected)虽然结合了主题和外部知识,但其性能低于 CompareNet w/o Entity Cmp 和 CompareNet w/o Topics。原因可能是 CompareNet(undirected) 直接将真正的实体知识聚合到图卷积中的新闻表示中了,因为它并没有考虑到边的方向,从而误导了分类器区分真假新闻。这验证了我们构建的有向异质文本图的必要性。最后一个变体 CompareNet(concatenate)的性能也低于 CompareNet w/o Entity Cmp,进一步表明直接拼接 真正的 实体知识并不是引入实体知识的好方法。与CompareNet 相比,它的性能下降了大约 2.0%。这些证明了在 CompareNet 中精心设计的实体对比网络的有效性。

    本期责任编辑:杨成

    本期编辑:刘佳玮


    投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

    c2aa8426bfaa11adff012999a138c0ed.png

    记得备注呦

    整理不易,还望给个在看!
    展开全文
  • 《基于区块链技术的虚假新闻检测方法》文献阅读笔记+总结 关键词:区块链、智能合约、虚假新闻、新闻网站、博弈论 来源 题目 时间 作者 中国学术期刊网络版 《基于区块链技术的虚假新闻检测方法》 2021-12-...

    《基于区块链技术的虚假新闻检测方法》文献阅读笔记+总结

    关键词:区块链、智能合约、虚假新闻、新闻网站、博弈论

    来源题目时间作者
    中国学术期刊网络版《基于区块链技术的虚假新闻检测方法》2021-12-28龚胜佳

    文章层次脉络:

    摘要

    ​ 文章要实现一个区块链虚假新闻检测系统,通过仿真实验法来验证系统可行性。本文围绕以下几个方面进行展开:

    • 分配审核者

    • 确保有效审核者数量

    • 检测恶意审核者

    0、引言

    首先提出了虚假新闻的危害性,指出了当前传统的针对假新闻传播的解决方案------机器学习存在的弊端。弊端有:

    1. 新闻内容过长时,机器学习检测效果不理想。
    2. 自然语言处理和机器学习都是针对 短新闻 历史数据的 特征行为 建立模型进行预测,但是对于假新闻特征行为积累不够,难以建立有效模型。

    由于机器学习存在着弊端,本文提出了新的方案,即 **通过区块链技术+处理新闻审核者、新闻发布者、与新闻内容之间的关系来处理虚假新闻。**也就是从根儿上解决虚假新闻的产生。

    本文提出的解决方案的先进性在于它是针对新闻产生做出的解决思路------预防虚假新闻的发布,而机器学习的解决方案必须通过虚假新闻已经传播甚至造成既定伤害以后,我们才能获取到大量数据,通过找出 语言特征行为 建立模型,进行预测,该解决方法有很大的局限性。

    1、相关工作

    通过引出文献:

    • 文献【9】
    • 文献【10】
    • 文献【11】
    • 文献【12】

    阐述了当前处理虚假新闻面临的问题是,我们可以通过已有思路解决虚假新闻恶意传播的问题、虚假新闻有关机构恶意传播虚假新闻的问题。但是在当前的思路中,没有文章从 虚假新闻发布这个角度去建立一种新的监督模式。而本文就从该角度出发进行论证。

    相关工作是根据区块链的特性来设计的:

    2、系统设计

    该系统角色主要分为三类:

    1. 新闻采集者
    2. 新闻编辑员
    3. 新闻审核者

    ​ 本系统借助CMS建立新闻网站,使用区块链技术对新闻审核流程进行优化,通过随机选择多人进行共同审核,保证审核者之间不会受影响。利用区块链的不可篡改性,将审核结果保存在区块里,从而增加了新闻的可信度。

    ​ 智能合约将数据存储到区块链后,智能合约中设置了审核时间 time 并随机生成了n个审核者,n个审核者在审核时间内对文章进行判断,他们通过新闻的 IFPS地址查看新闻,并作出判断。最后审核者将判断结果发送给智能合约。智能合约会通过新闻审核为真的数量与新闻审核为假的数量进行对比得出最后的审核结果。

    3、关键技术

    • 随机选择审核者

    通过审核者选择算法+伪代码论证了审核者是否可以进行审核需要自身的信任分数超过某个阈值,阈值决定了自己的状态,状态有“在线”或“离线”。

    • 调整审核者数量

    审核者数量不能少,防止审核者提交审核结果的数量太少,导致智能合约误判审核结果可信度低。设计了三种审核者调整方法。调整方案就是重新随机分配审核者。

    • 博弈论证明

      ​ 通过建立模型,提出了 纳什均衡点概念。通过分析三类审核者行为得出了结论:审核者如果要想获得最大收益,就必须按照要求向智能合约发送真实新闻。论证了审核信息的可靠性。

    • 审计机制

      建立审计机制为了防止参与者恶意发送报告,还能将一些一直不发送报告和放弃审核工作的参与者剔除,并且在新闻结算时,智能合约会将未发送报告的审核者状态改为“离线”。智能合约通过设计信任分数对审核者的状态进行更改。

      设计了两种审计规则:

      1. 恶意放弃审核攻击(消耗gas)
      2. 牺牲攻击(发不实消息)

    4、技术

    • CMS网站管理(容易上手,无代码开发)
    • geth搭建区块链测试环境(我用的是Ganache搭建)
    • SpringBoot(一款后端框架,比较火)
    • 自动验证功能(将当前访问新闻的哈希值与区块中存储的哈希值比较)

    5、可行性分析

    通过仿真实验法进行可行性分析。在仿真环境里预先生成100个区块链账户,注册成为审核者。在将审核者分类为四类:

    1. 诚实的审核者(70人)
    2. 只会发送新闻为假的账户(10人)
    3. 只会发送新闻为真的账户(10人)
    4. 既可能发送新闻为真,也可能给你发送新闻为假的账户(10人)

    审核人数的影响建立模型:


    规避合谋者:

    # 心得体会与收获

    这篇文章设计思路值得借鉴,用到的实验方法,论证方法对我们这样的新手来说都有很高的学习价值。首先从系统角色出发,分析角色之间的关系,分析所得有审核者,编辑者,网站用户三类角色。通过角色的关系设计一种新的思路,结合了区块链的特性,智能合约的特性讲清楚这样设计的优势所在,与传统的机器学习鉴别真假新闻有何不同。

    本文用到的实验方法:

    • 信任分数设计(审核者选择算法+伪代码)通过阈值范围的设计映射账户状态。用户的状态表明了用户当前的工作状态。
    • 通过时间量与工作量的关系,调整审核者数量
    • 激励机制:提高角色、用户的积极性可以设计激励机制。需要明确激励条件,激励行为,通表格法将角色激励行为的奖励分配画出来。
    • 博弈论证明:这里用到了著名的纳什均衡原理。通过 建立数学模型–>引出纳什均衡点—>博弈过程奖励图—>得出结论(角色要想收益化最大就得XXX)
    • 仿真实验法:明确仿真对象,数量,假设条件,搞出一堆莫名其妙的数据,画出了一幅可能通向结论的图—>得出结论。
    展开全文
  • 假新闻 使用django和python及数据集的虚假新闻检测
  • 文章目录1、虚假新闻检测的相关简介2、本篇论文引言3、模型介绍3.1、内生偏好编码器3.2、外生内容编码器3.3、二者信息融合4、实验4.1、各模型的实验结果4.2、消融实验5、结论 此文章为NLP的分支方向:虚假新闻检测...
  • 在智源&计算所-互联网虚假新闻检测挑战赛的假新闻文本识别这个评测任务上,该文提出的方法在最终的评测数据上达到F1为 0.92664的成绩。 模型介绍 模型结构 本次比赛采用了多种模型,下以BERT-CNN-Pooling模型为例...
  • 关键词:社交媒体,虚假新闻检测,多模态学习; 作者:Shengsheng Qian,Jinguang Wang,Jun Hu,Quan Fang,Changsheng Xu; 中国科学院大学,中国科学院模式识别国家重点实验室;合肥工业大学; 发表会
  • 基于BtLSTM的社交媒体虚假新闻检测.docx
  • 语义增强的多模态虚假新闻检测.docx
  • 作者:Susan Li翻译:杨毅远校对:吴金笛本文长度为4400字,建议阅读8分钟本文为大家介绍了基于自然语言处理的COVID-19虚假新闻检测方法以及可视化方法,并结合真实的新闻数据集...
  • ©PaperWeekly 原创 ·作者|金金单位|阿里巴巴研究实习生研究方向|推荐系统简介近年来,虚假信息和假新闻对个人和社会造成了不利影响,引起了对假新闻检测的广泛关注。大...
  • 关键词:虚假新闻检测,社交媒体,综述 文章目录1 摘要2 引言3 假新闻的特点3.1 虚假新闻的定义3.2 传统新闻媒体上的虚假新闻3.3 社交媒体上的虚假新闻4 假新闻检测4.1 问题定义4.2 特征抽取4.2.1 新闻内.
  • 2019 年 8 月,北京智源人工智能研究院联合中科院计算所、数据评测平台 biendata,共同发布了中文多模态虚假新闻数据集,并同步开放了评测竞赛(2019 年 8 ...
  • 元检测器用于虚假新闻检测的元事件知识转移_MetaDetector Meta Event Knowledge Transfer for Fake News Detection.pdf
  • GCAN:使用图注意力网络来做社交媒体虚假新闻检测 Abstract 主要任务:给定短文本的推特和一系列用户的转播链来判断是不是虚假新闻,并且对虚假新闻检测做一些解释性研究。 模型:GCAN 主要包括GCN,co-attention...
  • NewBeeNLP原创出品公众号专栏作者@bynblog |https://blog.csdn.net/byn12345互联网时代,假新闻铺天盖地,而且极具迷惑性,因此假新闻检...
  • 虚假新闻文本检测:文本是新闻信息的主要载体,对新闻文本的研究有助于虚假新闻的有效识别。具体任务为:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。 数据描述 虚假新闻文本检测任务中,训练集...
  • 1、任务:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。 2、方法:训练一个二分类器,判别新闻是真还是假。 一、数据预处理: a、样本数据观察: 训练集有38471条数据,每条数据有id、text、label...
  • 虚假新闻检测与事实验证数据集综述_Dataset of Fake News Detection and Fact Verification A Survey.pdf
  • 虚假新闻检测数据集

    万次阅读 热门讨论 2019-04-02 10:01:26
    说明:该数据集包含新闻内容和正确标注真假新闻标签的社会语境特征。 使用论文: (1)A Stylometric Inquiry into Hyperpartisan and Fake News (2)Exploiting Tri-Relationship for Fake News ...
  • 目录 总体笔记 模型

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,293
精华内容 917
关键字:

虚假新闻检测