精华内容
下载资源
问答
  • 《基于区块链技术的虚假新闻检测方法》文献阅读笔记+总结
    万次阅读
    2022-01-10 19:32:13

    《基于区块链技术的虚假新闻检测方法》文献阅读笔记+总结

    关键词:区块链、智能合约、虚假新闻、新闻网站、博弈论

    来源题目时间作者
    中国学术期刊网络版《基于区块链技术的虚假新闻检测方法》2021-12-28龚胜佳

    文章层次脉络:

    摘要

    ​ 文章要实现一个区块链虚假新闻检测系统,通过仿真实验法来验证系统可行性。本文围绕以下几个方面进行展开:

    • 分配审核者

    • 确保有效审核者数量

    • 检测恶意审核者

    0、引言

    首先提出了虚假新闻的危害性,指出了当前传统的针对假新闻传播的解决方案------机器学习存在的弊端。弊端有:

    1. 新闻内容过长时,机器学习检测效果不理想。
    2. 自然语言处理和机器学习都是针对 短新闻 历史数据的 特征行为 建立模型进行预测,但是对于假新闻特征行为积累不够,难以建立有效模型。

    由于机器学习存在着弊端,本文提出了新的方案,即 **通过区块链技术+处理新闻审核者、新闻发布者、与新闻内容之间的关系来处理虚假新闻。**也就是从根儿上解决虚假新闻的产生。

    本文提出的解决方案的先进性在于它是针对新闻产生做出的解决思路------预防虚假新闻的发布,而机器学习的解决方案必须通过虚假新闻已经传播甚至造成既定伤害以后,我们才能获取到大量数据,通过找出 语言特征行为 建立模型,进行预测,该解决方法有很大的局限性。

    1、相关工作

    通过引出文献:

    • 文献【9】
    • 文献【10】
    • 文献【11】
    • 文献【12】

    阐述了当前处理虚假新闻面临的问题是,我们可以通过已有思路解决虚假新闻恶意传播的问题、虚假新闻有关机构恶意传播虚假新闻的问题。但是在当前的思路中,没有文章从 虚假新闻发布这个角度去建立一种新的监督模式。而本文就从该角度出发进行论证。

    相关工作是根据区块链的特性来设计的:

    2、系统设计

    该系统角色主要分为三类:

    1. 新闻采集者
    2. 新闻编辑员
    3. 新闻审核者

    ​ 本系统借助CMS建立新闻网站,使用区块链技术对新闻审核流程进行优化,通过随机选择多人进行共同审核,保证审核者之间不会受影响。利用区块链的不可篡改性,将审核结果保存在区块里,从而增加了新闻的可信度。

    ​ 智能合约将数据存储到区块链后,智能合约中设置了审核时间 time 并随机生成了n个审核者,n个审核者在审核时间内对文章进行判断,他们通过新闻的 IFPS地址查看新闻,并作出判断。最后审核者将判断结果发送给智能合约。智能合约会通过新闻审核为真的数量与新闻审核为假的数量进行对比得出最后的审核结果。

    3、关键技术

    • 随机选择审核者

    通过审核者选择算法+伪代码论证了审核者是否可以进行审核需要自身的信任分数超过某个阈值,阈值决定了自己的状态,状态有“在线”或“离线”。

    • 调整审核者数量

    审核者数量不能少,防止审核者提交审核结果的数量太少,导致智能合约误判审核结果可信度低。设计了三种审核者调整方法。调整方案就是重新随机分配审核者。

    • 博弈论证明

      ​ 通过建立模型,提出了 纳什均衡点概念。通过分析三类审核者行为得出了结论:审核者如果要想获得最大收益,就必须按照要求向智能合约发送真实新闻。论证了审核信息的可靠性。

    • 审计机制

      建立审计机制为了防止参与者恶意发送报告,还能将一些一直不发送报告和放弃审核工作的参与者剔除,并且在新闻结算时,智能合约会将未发送报告的审核者状态改为“离线”。智能合约通过设计信任分数对审核者的状态进行更改。

      设计了两种审计规则:

      1. 恶意放弃审核攻击(消耗gas)
      2. 牺牲攻击(发不实消息)

    4、技术

    • CMS网站管理(容易上手,无代码开发)
    • geth搭建区块链测试环境(我用的是Ganache搭建)
    • SpringBoot(一款后端框架,比较火)
    • 自动验证功能(将当前访问新闻的哈希值与区块中存储的哈希值比较)

    5、可行性分析

    通过仿真实验法进行可行性分析。在仿真环境里预先生成100个区块链账户,注册成为审核者。在将审核者分类为四类:

    1. 诚实的审核者(70人)
    2. 只会发送新闻为假的账户(10人)
    3. 只会发送新闻为真的账户(10人)
    4. 既可能发送新闻为真,也可能给你发送新闻为假的账户(10人)

    审核人数的影响建立模型:


    规避合谋者:

    # 心得体会与收获

    这篇文章设计思路值得借鉴,用到的实验方法,论证方法对我们这样的新手来说都有很高的学习价值。首先从系统角色出发,分析角色之间的关系,分析所得有审核者,编辑者,网站用户三类角色。通过角色的关系设计一种新的思路,结合了区块链的特性,智能合约的特性讲清楚这样设计的优势所在,与传统的机器学习鉴别真假新闻有何不同。

    本文用到的实验方法:

    • 信任分数设计(审核者选择算法+伪代码)通过阈值范围的设计映射账户状态。用户的状态表明了用户当前的工作状态。
    • 通过时间量与工作量的关系,调整审核者数量
    • 激励机制:提高角色、用户的积极性可以设计激励机制。需要明确激励条件,激励行为,通表格法将角色激励行为的奖励分配画出来。
    • 博弈论证明:这里用到了著名的纳什均衡原理。通过 建立数学模型–>引出纳什均衡点—>博弈过程奖励图—>得出结论(角色要想收益化最大就得XXX)
    • 仿真实验法:明确仿真对象,数量,假设条件,搞出一堆莫名其妙的数据,画出了一幅可能通向结论的图—>得出结论。
    更多相关内容
  • 虚假新闻识别检测数据集news.csv
  • 2021年《计算机研究与发展》专题(正刊)征文通知——虚假信息检测
  • 2021年《计算机研究与发展》专题(正刊)征文通知——虚假信息检测.pdf
  • 针对这一问题,提出一种基于弱分类器集成的虚假交通信息检测方法。首先,扩充交通警报信息的有效特征,并设计分割规则,将信息的特征集划分为多个特征子集;然后,根据子集特征的不同特性,使用对应的弱分类器分别...
  • 链接: https://pan.baidu.com/s/1CmFi_VQXT2ATzvM179ZUzA 提取码: kk6s 复制这段内容后打开百度网盘手机App,操作更方便哦

     

     

     

    链接: https://pan.baidu.com/s/1CmFi_VQXT2ATzvM179ZUzA 提取码: kk6s 复制这段内容后打开百度网盘手机App,操作更方便哦

     

     

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • 随着互联网的迅速发展及网络社会媒体中用户的增加,通过社会媒体发布和传播信息的真实性和质量...鉴于网络信息生态系统非常嘈杂,充斥着错误和虚假信息并经常受到恶意媒介的污染,从中识别真实的信息成为一项艰巨任务.
  • 近年来,社交网络上虚假信息传播愈演愈烈,在政治、经济、心理学等方面造成了严重的社会...有效检测社交网络中的虚假信息并对其实施控制,是改善社交网络生态系统质量的重要手段,能为人们营造一个安全、可信的网络环境。
  • 卷积神经网络(CNN)是典型深度学习算法,通过建立、模仿人脑的机制来解释数据,可以把原始数据...本文通过对传统卷积神经网络介绍、改进并将其应用于虚假评论的识别,并与传统文本分类方法进行对比,其分类准确率有所提高。
  • Yelp-Fake-Review-检测 零售集团 YelpFakeReviewDection 应该可以导入 Eclipse IDE,这是我们项目的主文件。 在运行主类之前,请从“yelp_reviews_new”下载输入数据并更改其中的目录。 运行主类所在的 Cosine_...
  • 来源:清华大学藤影荷声本文约5000字,建议阅读10分钟本文为你介绍网络虚假信息的一些特征和检测方法。互联网的深度普及加速了“信息时代”的到来,网络中每个人都可以以极低甚至“零”成本的方...

    来源:清华大学藤影荷声

    本文约5000字,建议阅读10分钟

    本文为你介绍网络虚假信息的一些特征和检测方法。

    互联网的深度普及加速了“信息时代”的到来,网络中每个人都可以以极低甚至“零”成本的方式创造信息,同时每个人也都可以成为信息传播路径上的一个节点。这种获取、创造和传播信息的便捷,给社会进步和人类发展带来了福祉。然而,凡事终有两面,互联网也为人类社会带来了巨大的挑战——网络中的信息鱼龙混杂,虚假信息无处不在。

    网络虚假信息的影响有多大?

    美国皮尤研究中心对美国人2018年接触的新闻来源情况进行调查,发现约三分之二的美国人从社交媒体平台上获取信息,但其中57%的人认为,他们获取到的新闻是不准确的[1]。这说明网络虚假信息已广泛渗入网民生活中,并被网民广泛认知。

    皮尤研究中心对美国人2018年接触的新闻来源的调查分析[1]

    据统计,2016年美国总统大选期间,热度排名前20的报道选举事件的虚假新闻在“脸书”上收获了共8,711,000个分享、点赞和评论,超过了热度排名前20的真实新闻收获的7,367,000个分享、点赞和评论[2],严重误导了大众对选举的舆论走向。同年,“后真相”一词也被《牛津词典》评选为年度词汇,反映了如今“雄辩胜于事实”的网络环境[3]。2011年,日本大地震引发的核泄漏污染海盐,我国网络媒体中出现“我国食盐资源也受到污染”等大量虚假信息,引发民众疯狂抢盐,导致社会恐慌。

    可以看到,网络虚假信息的大规模传播,对社会和个人发展带来了严重危害。因此,在当今互联网时代,认识和检测网络虚假信息尤为重要。

    网络虚假信息都有哪些类型?

    根据网络虚假信息的内容,可以分为基于观点(Opinion-based)的虚假信息基于事实(Fact-based)的虚假信息两大类。

    • 基于观点的虚假信息没有绝对的事实标准,一般指表达虚假的个人观点,如点评网站上的虚假评论。

    • 基于事实的虚假信息存在绝对的事实标准,一般是为迷惑大众而篡改事实真相,如假新闻、维基骗局(Wiki Hoax)等。

    这两类都是我们需要重点研究和检测的对象。以一个在当时广泛传播的维基骗局为例,2008年7月,一名17岁的学生恶作剧,在维基百科词条“coati(南美浣熊)”中添加了一个虚假名称,称“coatis也被叫做‘Brazilian Aardvark(巴西土豚)’”。之后,这一虚假信息在维基百科上保留了六年,并被数百家网站、报纸甚至是一些大学出版的书籍传播。

    维基词条“coati”(南美浣熊)的骗局

    网络虚假信息都有哪些特征?

    关于这一点,目前国外已有一些开创性的工作,定量分析网络虚假信息的统计特征。研究发现,基于观点的虚假信息在文本、情感和时间三个方面都具有明显的特征:

    • 文本特征

      基于观点的虚假信息之间往往有很强的文本相似度,且伴有鲜明的语言特征。

      如多使用第一人称表示亲身经历,多使用较强的情感词和修饰副词,如“很”“非常”等。

    • 情感特征

      虚假评论中的情感存在强烈的“两极分化”现象,“满分评论”和“最低分评论”占主导[4]。

    • 时间特征

      虚假评论一般比真实评论更“突发”,虚假信息提供者发起连续评论的时间间隔更短[5]。

    基于事实的虚假信息,则在语言、评论和传播方式上具有突出的特征:

    • 语言特征。基于事实的虚假信息为了提升关注度、吸引流量,往往在标题中提供较大信息量,且表现出强烈的文不对题的特征,即所谓的“标题党”。

    “标题党”新闻

    • 评论特征。虚假信息因为其观点的新奇性,会在评论中引发更多的“惊讶”、“厌恶”等情绪[6]

    虚假信息的评论中“惊讶”“厌恶”情绪激增(红色为虚假信息)[6]

    • 传播特征。虚假信息呈现出“病毒式”传播模式,往往比真实信息传播的更远、更快、更深、更广[7]。

    虚假信息比真实信息传播的更远、更快、更深、更广[7]

    网络虚假信息为什么能欺骗大众?

    一些研究定量分析了网络虚假信息为什么能够骗过大众,主要是从虚假信息本身、网民个人和网民群体三个角度进行探讨的。

    猎奇心态。如前面提到的,网络虚假信息本身在语言上具有鲜明的特征,它们为了吸引眼球,往往会提供更新奇的观点,展示更独特的信息[8],而社会大众因为“猎奇”心态,也会更倾向于传播此类信息。

    虚假信息(红色)和真实信息(绿色)在信息独特性(IU)、差异性(KL)等指标上的对比[8]

    辨别力差。很多互联网用户由于知识水平参差不齐,往往不具备足够分辨信息真实性的能力。斯坦福大学库玛(Kumar)团队曾做过一个实验,他们雇佣亚马逊劳务众包平台(Amazon Mechanical Turk)的标注人员,让他们判别320对真实和虚假文章,每一对展示给5名不同的标注人员。实验发现,人们成功识别出虚假文章的几率仅为66%(略高于随机猜测的50%)。进一步地,他们将“易识别”和“难识别”的虚假信息进行统计对比,发现虚假信息的长度越长、链接越多、标记越多,则越容易被判别为真实信息[9]。可以设想,如果虚假信息刻意在长度、链接、标记等方面模仿真实信息,那么将更难被辨别!

    回声室效应。互联网形成了大大小小的网民在线社区,回声室效应 (Echo Chamber Effect)会进一步诱使大众被虚假信息欺骗。回声室效应是指,在相对封闭的环境中,意见相近的声音不断重复,并以夸张或其他扭曲的形式不断重复,让处于这个相对封闭环境中的大多数人认为这些扭曲的故事就是事实全部。当今,在线社交媒体的个性化推荐算法不断精进,持续将相似兴趣的内容和人推荐给用户,进一步放大了互联网社区的回声室效应。回声室效应下的网民,往往会固守在与自己喜好和意见相符的社交圈中,隔绝其他社交圈的信息输入。下图反映了“推特”上关于#beefban(在印度禁止牛肉)话题的转发网络[9],红色和蓝色的点代表持相反观点的网民群体。可以看到,相比于群体内部的频繁互动,两个群体之间则鲜有信息交流。

    推特上关于#beefban话题的转发网络[9]

    网络虚假信息如何自动检测?

    基于以上分析,我们可以发现,只要稍加包装,虚假信息很容易“蒙混过关”,在互联网上大规模传播。而面对纷繁复杂互联网信息,人工专家检测耗时耗力,与指数增长的信息量相比已是不可能完成的任务。

    好消息是,互联网技术与计算机和人工智能技术是相伴而行的。先进的人工智能技术为我们提供了自动检测虚假信息的可能。目前,国外有很多研究者正在探索如何自动检测虚假信息,并取得了一定进展。

    特征工程思路。有些研究者采用特征提取的思路。他们根据总结的虚假信息特征,如前面提到的语言特征、传播特征等,采用支持向量机、随机森林等机器学习方法对信息进行真假分类[10,11,12],如下图所示。这种基于特征提取的方法,可以充分地利用专家总结的经验和知识,但美中不足的是,需要人工手动提取特征,无法自动从大规模互联网数据中挖掘特征。而网络虚假信息与垃圾邮件或广告类似,其技术、手段和形式也在不断更新换代,这些专家总结的特征很难做到与时俱进,及时应对新出现的虚假信息形式。

    传统基于特征提取的方法

    深度学习思路。近年来,深度学习引发了全球人工智能发展的浪潮。深度学习的核心思想之一,是采用分布式表示(distributed representation)方案,自动从大规模文本中学习和提取语义特征。分布式表示学习是指通过大规模数据集合自动学习信息的低维特征向量表示,这些向量反映了我们关心的对象(如词、句子、文档、用户、物品等)在低维向量空间中的位置信息,它们之间的相对距离和位置反映了语义相关度。下图是从大规模文本语料中自动学习到的部分词语的二维向量表示[13],可以看到,深度学习技术可以自动学习词语的语义相似度,即国家名称会聚在一起,而城市名称会聚在一起。同时,该技术还能发现词语之间大致存在“China”–“Beijing”≃“Japan”–“Tokyo”的语义关系,即能自动挖掘出“国家首都”这一隐含的语义关系。

    分布式表示学习[13]

    分布式表示学习可以很好地解决社会计算中对象间的语义计算问题,将文本、用户、物品映射到统一的低维向量语义空间。这样就不再需要专家总结它们的特征,而是从海量互联网数据中自动挖掘特征,进而对信息进行真假预测[14,15,16]。

    基于分布式表示学习的方法[13]

    这里举一个采用深度学习技术,自动从原始文本和评论文本中学习特征,在社交媒体平台中进行早期谣言自动检测的典型案例[17]。上文提到,社交媒体平台中的评论文本蕴藏着丰富的鉴别原始发布信息真伪的反馈信息,如果能够充分挖掘评论文本信息,将能够很大程度上提高信息检测的时效性和准确性,实现谣言的早期自动检测。

    使用“可信检测点”进行谣言早期检测的一个实例[18]

    如上图所示,我们绘出了一条谣言的转帖序列和随时间变化的预测概率曲线。因为转帖中对原文信息存在很多怀疑和反驳,所以我们不用看完所有评论即可做出可信的预测。基于这一观察,我们引入“可信检测点”的概念,并提出一种谣言早期检测模型,通过深度神经网络不断整合前序评论的表示,自动学习怎样确定每个转发序列的“可信检测点”,确保在该时间点预测结果的可信度,使得之后不会出现结果反转的情况。基于深度学习方法,在新浪微博真实数据集合上进行的实验结果表明,相比于传统模型,该谣言早期检测模型将预测时间缩短了85%,并取得了更高的检测准确率。

    总结与展望

    进入“后真相时代”,网络虚假信息的定量分析与自动检测是一个亟待解决的问题,基于深度学习的自动检测方法将是今后的主流趋势,但此方法仍存在准确率不高、解释性和鲁棒性差的问题。这是一个高度交叉的学科方向,需要计算机科学、语言学、社会学、心理学、法学、甚至脑科学的全角度综合研究,实现对网络虚假信息的“围剿”。

    仅从技术上看,已有的如维基数据、知网等知识库蕴含着丰富的群体智慧和人类知识,如果能将这些结构化知识与深度学习技术相结合,引入到虚假信息检测模型中,有望显著提高信息检测的准确率。而如何将纷繁复杂的网络信息提取,并与知识库中的信息进行匹配,将是其中的挑战和难点,也是未来值得深入探索的问题。

    此外,目前关于网络虚假信息的定量研究大都基于英文数据,而中文相关研究还很少,这与中文网络世界相关数据获取较难、有标注数据较少有一定关系。因此,构建一个相对大规模的中文网络虚假信息语料库,以及如何基于少量中文语料库即能建立有效的虚假信息自动挖掘和检测能力,也将是一个值得研究的问题。

    本文结合前人研究工作,对网络虚假信息的影响、特征、成因以及检测做了非常简要的概括和梳理,没有涉及太多技术细节,旨在起到科普介绍的作用,希望对大家初步了解和探索该方向有所裨益。限于作者水平,难免有舛误之处,欢迎批评指正。

    参考文献

    [1] Elisa Shearer, Katerina Eva Matsa. News Use Across Social Media Platforms 2018.Pew Research Center.2018.

    [2] Craig Silverman. This analysis shows how viral fake election news stories outperformed real news on facebook. Buzzfeed News. 2016.

    [3] “Word of the Year 2016 is...” Oxford Dictionaries. 2016.

    [4] Kumar, Srijan, and Neil Shah. "False information on web and social media: A survey." arXiv preprint arXiv:1804.08559 (2018).

    [5] Shah, Neil, et al. “Edgecentric: Anomaly detection in edge-attributed networks.”  2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW). IEEE, 2016.

    [6] Hooi, Bryan, et al. “Birdnest: Bayesian inference for ratings-fraud detection.” Proceedings of the 2016 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2016.

    [7] Vosoughi, Soroush, Deb Roy, and Sinan Aral. “The spread of true and false news online.” Science 359.6380 (2018): 1146-1151.

    [8] Kumar, Srijan, Robert West, and Jure Leskovec. “Disinformation on the web: Impact, characteristics, and detection of wikipedia hoaxes.” Proceedings of the 25th international conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2016.

    [9] Garimella, Kiran, et al. "Balancing opposing views to reduce controversy." arXiv preprint arXiv:1611.00172 (2016): 4.

    [10] Kumar, Srijan, Robert West, and Jure Leskovec. “Disinformation on the web: Impact, characteristics, and detection of wikipedia hoaxes.” Proceedings of the 25th international conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2016.

    [11] Jindal, Nitin, and Bing Liu. “Opinion spam and analysis.” Proceedings of the 2008 international conference on web search and data mining. ACM, 2008.

    [12] Kumar, Srijan, et al. “FairJudge: Trustworthy user prediction in rating platforms.” arXiv preprint arXiv:1703.10545 (2017).

    [13] Mikolov, Tomas, et al. “Distributed representations of words and phrases and their compositionality.” Advances in neural information processing systems. 2013.

    [14] Karimi, Hamid, and Jiliang Tang. “Learning Hierarchical Discourse-level Structure for Fake News Detection.” arXiv preprint arXiv:1903.07389 (2019).

    [15] Song, Changhe, et al. “CED: Credible Early Detection of Social Media Rumors.” arXiv preprint arXiv:1811.04175 (2018).

    [16] Shu, Kai, Suhang Wang, and Huan Liu. “Beyond news contents: The role of social context for fake news detection.” Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. ACM, 2019.

    [17] Fake News: Fundamental Theories, Detection Strategies and Challenges, Xinyi Zhou, Reza Zafarani, Kai Shu and Huan Liu, WSDM, 2019.

    [18] 刘知远, 宋长河, 杨成. 社交媒体平台谣言的早期自动检测. 全球传媒学刊 5.4 (2018): 65-80. 英文技术版:Changhe Song, Cunchao Tu, Cheng Yang, Zhiyuan Liu, Maosong Sun. CED: Credible Early Detection of Social Media Rumors. arXiv preprint arXiv:1811.04175.

    作者简介

    刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。

    陈慧敏,清华大学计算机科学与技术系博士生,主要研究方向为情感分析、文本生成、谣言分析。

    编辑:王菁

    展开全文
  • 虚假账号检测.pptx

    2020-05-26 11:23:56
    利用账户注册信息检测社交网络中的虚假账号,可以实现在账户注册时,识别虚假账号。作者提出和实现了Ianus系统,并利用微信注册信息,进行了评估
  • 每天给你送来NLP技术干货!论文解读者:北邮 GAMMA Lab 博士生 杨天持题目:知识对比:基于外部知识的图神经虚假新闻检测会议:ACL 2021论文代码:https://git...

    每天给你送来NLP技术干货!


    论文解读者:北邮 GAMMA Lab 博士生  杨天持

    684b8f3a898a4da7b70e8a3162995819.png

    题目: 知识对比:基于外部知识的图神经虚假新闻检测

    会议: ACL 2021

    论文代码:

    https://github.com/BUPT-GAMMA/CompareNet_FakeNewsDetection

    近年来,虚假新闻检测,旨在验证新闻文档是可信的还是伪造的,已越来越受到重视。大多数现有方法严重依赖新闻内容的语言和语义特征,未能有效利用外部知识,而外部知识很可能对确定新闻文档是否可信非常有帮助。在本文中,我们提出了一种名为 CompareNet 的新型端到端图神经模型,该模型通过实体将新闻与知识库 (KB) 进行比较以进行假新闻检测。考虑到假新闻检测与话题/主题相关,我们还整合了主题以丰富新闻的表示。具体地,我们首先为每个包含主题和实体的新闻构建一个有向异质文本图。基于该图,我们设计了一个异质图注意力网络,用于学习主题增强的新闻表示以及编码了新闻内容语义的基于上下文的实体表示。然后通过精心设计的实体对比网络(entity comparison network)将基于上下文的实体表示与相应的基于知识库的实体表示进行对比,以捕获新闻内容和知识库之间的一致性。最后,结合了实体对比特征的主题增强的新闻表示被输入到虚假新闻分类器中。两个基准数据集的实验结果表明,CompareNet 显著优于最先进的方法。

    1 引言

    随着互联网的快速发展,假新闻的生产、传播和消费的机会越来越大。这些主观故意的假新闻很可能会误导读者。假新闻还很容易误导舆论,从而引发严重的信任危机,扰乱社会秩序。众所周知,虚假新闻在2016年美国总统选举时,就产生了不良影响。因此,基于新闻文本的文本内容信息,设计开发有效的虚假新闻检测方法,以尽早发现虚假新闻非常重要。

    一些现有的虚假新闻检测方法严重依赖各种手工的语言和语义特征来区分真假新闻。为避免这样的特征工程,一些深度神经网络的方法,如采用Bi-LSTM和卷积神经网络(CNN)等,相继被提出。然而,这些方法没有考虑到文档中的句子交互。表明可信新闻和虚假新闻通常会具有不同的句子交互模式,因此他们将新闻文档建模为一个句子完全图,并提出了一个用于假新闻检测的图注意力模型。尽管这些现有方法一定程度上是有效的,但它们仍然有未能充分利用外部知识库来帮助虚假新闻检测的不足。

    cfebacf39414cd559f0c4b2bf7e9ed1b.png

    维基百科等外部知识库包含大量高质量的结构化的主谓宾三元组和非结构化的实体描述,这可以作为检测虚假新闻的证据。如图1所示,关于“X光检查不能有效检测乳腺肿瘤”的新闻文档很可能被检测为虚假新闻,因为根据维基百科中的实体描述页面,“乳房X光检查”的目标正是为了尽早发现“乳腺癌”。因此[1]提出从真新闻和假新闻构建一个知识图谱,并应用TransE学习三元组分数,从而进行虚假新闻检测。然而,该方法的性能在很大程度上会受到所构建的知识图谱的影响。在本文中,为了充分利用外部知识,我们提出了一种新颖的端到端的图神经网络模型CompareNet,它以实体为桥梁将新闻与知识库直接进行对比,从而进行虚假新闻检测。在 CompareNet 中,我们还考虑使用主题来丰富新闻文档的表示以进一步提升检测效果,这是因为虚假新闻检测和主题高度相关。例如,“健康”主题的新闻文档更容易偏向于虚假,而“经济”主题的新闻文档则更容易偏向于可信。

    具体地,我们首先为每个新闻文档构建一个有向异质文本图,其中包含句子、主题和实体作为节点。句子节点之间被双向全连接。而每个句子还与其最相关的主题节点双向相连。此外如果一个句子包含某个实体,则会建立一个从该句子节点到实体节点的单向链接。单向链接的目的是为了确保我们可以正确学得对新闻语义进行了编码的基于上下文的实体表示,并与此同时避免学习新闻表示的过程中,将真实知识库的实体信息直接引入到文档表示中,从而对检测产生误导的影响。基于该有向异质文本图,我们设计了一个异质图注意力网络来学习主题增强的新闻表示和基于上下文的实体表示。然后将学习到的基于上下文的实体表示与相应的基于知识库的实体表示进行对比,并使用精心设计的实体对比网络捕获新闻内容和外部知识库之间的语义一致性。最后,将主题增强的新闻表示和实体的对比特征结合起来进行最后的虚假新闻分类。

    综上所述,我们的主要贡献包括:

    • 在本文中,我们提出了一种新颖的端到端的图神经模型CompareNet,它以实体作为桥梁,将新闻与外部知识直接进行对比从而进行虚假新闻检测。

    • 在 CompareNet 中也考虑了非常有效的主题信息。我们构建了一个包含了主题和实体的有向异质文本图,然后设计了异质图注意力网络来学习主题增强的新闻表示,最后一个新颖的实体对比网络用于将新闻与知识库进行对比。

    • 在两个基准数据集上的大量实验表明,我们的模型通过有效地结合外部知识和主题信息,在虚假新闻检测任务上明显优于最先进的模型。

    [1] Content Based Fake News Detection Using Knowledge Graphs

    2 方法

    98248e4777759876d2cda4ce4076de56.png

    在本节中,我们将详细介绍所提出的虚假新闻检测模型 CompareNet,它直接将新闻与外部知识进行对以进行检测。如图2所示,我们还考虑了用主题丰富新闻的表示,因为虚假新闻检测通常是与主题高度相关的。具体来说,我们首先为每个包含主题和实体的新闻文档构建一个有向异质文本图,如上图所示。该文本图可以很好地捕捉句子、主题和实体之间的交互关系。基于该图,我们设计了一个异质图注意力网络来学习主题增强的新闻表示,以及对新闻文档语义进行编码的基于上下文的实体表示。为了充分利用外部知识库,我们将实体作为新闻文档和知识库之间的桥梁。因此我们使用一个精心设计的实体对比网络将基于上下文的实体表示与相应的基于知识库的实体表示进行对比。最后,将获得的实体对比特征与主题增强的新闻文档表示相拼接,最后用于虚假新闻检测。

    2.1 有向异质文本图

    对于每个新闻文档 ,我们构建了一个包含主题和实体的有向异质文本图,如图2所示。图中共有三种节点:句子,主题和实体 ,即。边集合 表示句子、主题和实体之间的关系。构建图的细节描述如下。

    我们首先将新闻文档拆分为一组句子。句子在图中彼此双向连接以建模每个句子与其他句子的交互。由于主题信息对于虚假新闻检测很重要,我们使用无监督的LDA模型从我们数据集中的所有文档的所有句子中挖掘潜在主题 。具体地,每个句子都被视为一个伪文档,并被分配到概率最大的前 相关主题。因此,每个句子也与它分配的前 个主题彼此双向连接,从而允许有用的主题信息在句子之间传播。请注意,我们还可以通过使用训练好的LDA推断新的新闻文档的主题来。我们识别文档 中的实体,并使用实体链接工具 TAGME 将它们映射到维基百科。若一个句子 包含某个实体 ,则建立一个从句子到实体 的单向边,以便只允许从句子到实体的信息传播。这样,我们可以避免将真正的 实体知识直接集成到新闻表示中,而这可能会误导假新闻的检测。

    2.2 异质图卷积

    基于上述构建的有向异质文本图,我们设计了一个异质图注意力网络,用于学习新闻表示以及基于上下文的实体表示。它不仅考虑了不同类型的不同节点的权重,还考虑了异质图中的边方向。

    形式化地,我们有具有不同特征空间的三种类型的节点:句子 、主题 和实体。我们使用 LSTM 对句子 进行编码,并得到它的向量表示 。实体 初始化为基于外部知识库学到的实体表示 (参见下节)。主题 则用独热码 初始化。

    接下来,考虑图 ,其中 和 分别代表节点和边的集合。令是一个矩阵,包含了所有节点的特征向量 (其中每行 是节点 的向量特征)。记和分别是邻接矩阵和度矩阵。则异质卷积层通过聚合相邻节点的特征 来更新具有不同类型的节点第() 层的表示 。(初始地,):

    其中表示激活函数。不同类型的节点有不同的变换矩阵,其中是节点类型。变换矩阵考虑到了不同的特征空间并将它们投影到相同的隐式特征空间中。是注意力矩阵,每一行代表一个节点,列代表该节点类型为的相邻节点。它的第行第 列中的元素 的计算如下:

    其中 是注意力向量, 是类型级别的注意力权重。 和 分别是当前节点 及其相邻节点 的表示。Softmax 函数用于在节点 的相邻节点之中进行归一化。

    我们根据当前节点嵌入 和类型嵌入来计算类型级注意力权重 (其中类型嵌入为相邻的类型节点嵌入的加权和,加权矩阵是添加了自连接的归一化邻接矩阵,形式化如下所示:

    其中 是 类型的注意力向量。Softmax 函数将用于沿着类型进行归一化。

    经过层异质图卷积,我们最终可以得到所有节点(包括句子和实体)的聚合了邻域语义的表示。我们对句子们的表示使用最大池化以获得最终的主题增强的新闻文档嵌入表示。学得的对文档上下文语义进行了编码的实体表示将作为基于上下文的实体表示。

    本文利用两个并行卷积神经网络(PCNN)作为新闻内容信息特征提取网络,定义标题的表示,  实体集的表示 ,实体类型表示, , 和 分别是词 , 实体 , 实体类型 的表示。进一步定义概要层次初始表示 ,学习标题层次表示和概要层次表示,拼接经过MLP层最终得到一个新闻的特征表示。*

    对于只包含id信息用户,则对其随机初始化得到用户初始特征表示。由于这两种表示来自不同的语义空间,利用两个类型矩阵将与映射到同一空间中。

    2.3 实体对比网络

    本小节将详细介绍提出的实体对比网络,该网络将学习到的基于上下文的实体嵌入 与相应的基于知识库的实体嵌入 进行对比。基于下述假设我们认为这样的实体对比特征将可以提升虚假新闻检测的效果,即,从可信的新闻文档中学到的基于上下文的实体表示 可以更好地与相应的基于知识库的实体表示 对齐;而对于虚假新闻,则相反。

    2.4 基于知识库的实体表示

    我们将首先介绍如何充分利用知识库(即维基百科)中的结构化的主谓宾三元组和非结构化的实体的文本描述,以学习基于知识库的实体表示。

    结构表示。我们可以应用广泛使用的知识图谱嵌入方法来获得结构化的实体嵌入表示。由于TransE 的简单性,这里我们采用 TransE从三元组中学习基于结构的实体表示。形式化,给定三元组 ,TransE将关系 视为从头实体 到尾实体 的翻译向量 ,即。

    文本表示。对于每个实体,我们将相应维基百科页面的第一段作为该实体的文本描述。然后我们使用LSTM 来学习对实体描述进行编码的基于文本的实体表示。

    基于门控的整合。由于结构三元组和文本描述都为实体提供了有价值的信息,我们需要将这些信息整合到一个联合的表示中。特别地,由于我们有结构嵌入 和文本嵌入,我们采用可学习的门控函数来整合这两个不同来源的实体嵌入。形式化地,

    其中 是一个门控向量(对应于实体),用于对两个来源的信息之间做权衡,其元素的取值范围是 。 表示对应元素乘法。门控向量 意味着,对于 和 的每个维度,都将通过不同的权重进行相加。为了满足取值范围的约束,我们使用 Sigmoid 函数来计算门控向量 :

    其中 是一个实值向量并在训练过程中进行学习。

    在将两种类型的嵌入经过门控函数进行了融合后,我们获得了最终的基于知识库的实体嵌入,它对三元组的结构信息和知识库中实体描述的文本信息进行了编码。

    实体对比。然后我们在新闻文档和知识库之间,进行实体之间的对比,从而捕获新闻内容和知识库之间的语义一致性。我们计算每个基于上下文的实体表示 与其对应的基于知识库的实体嵌入 之间的对比向量。

    其中 表示对比函数, 是一个变换矩阵。为了衡量嵌入之间的接近程度和相关程度,我们将此对比函数设计为:

    其中 是变换矩阵, 是 hadamard积,即对应元素的乘积。最终输出的对比特征向量 是通过在新闻文档中的所有实体的对比向量上使用最大池化获得的。

    2.5 模型训练

    在获得对比向量 和最终的新闻文档表示向量 后,我们将它们拼接起来并输入到 Softmax分类层中。形式化地,

    其中 和 是线性变换的参数矩阵和偏置向量。在模型训练中,我们使用参数的 L2正则以及训练数据上的交叉熵损失:

    其中是新闻文档的训练集,是对应的标签指标矩阵,是模型参数,是正则化因子。我们采用梯度下降算法优化模型。

    最后,对用户与新闻的表示分别再增加一层全连接层,通过点积形式计算候选新闻的点击概率。

    点击预测的loss函数为:

    偏好正则器项的loss函数为:

    总的训练loss可以写成:

    3 实验

    这里介绍两个主要的实验。

    3.1 主实验

    fb39f9b77f215f471d75029f05a02b23.png

    表2 报告了二路分类的实验效果。由于 micro PrecisionRecallF1,这里我们只报告了 micro F1。正如我们所看到的,我们提出的模型 CompareNet 在所有指标上都明显优于所有最先进的基线方法。与最佳基线模型相比,CompareNet将 micro F1 和 macro F1 提高了近 3%。我们还发现,基于图神经网络的模型 GCN 和 GAT 都比包括 CNN、LSTM 和 BERT在内的序列深度神经模型表现得更好。原因是这些序列深度神经模型不能考虑句子之间的交互,而这对于虚假新闻检测非常重要,因为在真假新闻中观察到的交互模式是不同的。我们的模型CompareNet通过有效利用主题以及外部知识库进一步提升了虚假新闻检测。这些主题丰富了新闻表示,而外部知识库为虚假新闻检测提供了证据。

    286ede4cc2242e4c3c2b6e5df411e3ec.png

    表3展示了四路分类的结果。一致地,可以捕获句子交互的图神经模型都优于深度神经模型。而我们的模型CompareNet 在所有指标上都实现了最佳性能。我们相信这是由于我们的模型CompareNet 受益于主题和外部知识。

    3.2 消融实验

    7f39211185861d3385712a51f17e3670.png

    在本小节中,我们实验研究 CompareNet 中每个模块以及我们整合外部知识的方式的有效性。我们在LUN-test上运行5次并报告平均性能。如表4所示,我们测试了CompareNet在去除了结构化三元组、去除了整个外部知识、去除了主题以及同时去除主题和外部知识时的性能。在最后两行中,我们进一步测试了所构建的有向异质文本图和设计的实体对比函数。变体 CompareNet(无向)不考虑有向异质文本图中边的方向。变体模型 CompareNet(concatenate) 使用简单的拼接代替了实体对比函数。正如我们从表 4 中看到的那样,移除了结构化实体知识(即w/o Structured Triplets)会导致轻微的性能下降。但如果我们移除了整个外部知识(即,w/o Entity Cmp),则在 micro F1 和 macro F1 上的性能分别下降约 1.3% 和1.8%。移除主题(即w/o topics)会比较影响性能,这表明主题信息与外部知识一样重要。删除主题和外部知识(即 w/o Both)将导致性能大幅下降(4.0-5.0%)。这展示了主题和外部知识的重要性。变体模型CompareNet(undirected)虽然结合了主题和外部知识,但其性能低于 CompareNet w/o Entity Cmp 和 CompareNet w/o Topics。原因可能是 CompareNet(undirected) 直接将真正的实体知识聚合到图卷积中的新闻表示中了,因为它并没有考虑到边的方向,从而误导了分类器区分真假新闻。这验证了我们构建的有向异质文本图的必要性。最后一个变体 CompareNet(concatenate)的性能也低于 CompareNet w/o Entity Cmp,进一步表明直接拼接 真正的 实体知识并不是引入实体知识的好方法。与CompareNet 相比,它的性能下降了大约 2.0%。这些证明了在 CompareNet 中精心设计的实体对比网络的有效性。

    本期责任编辑:杨成

    本期编辑:刘佳玮


    投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

    c2aa8426bfaa11adff012999a138c0ed.png

    记得备注呦

    整理不易,还望给个在看!
    展开全文
  • 文章目录1、虚假新闻检测的相关简介2、本篇论文引言3、模型介绍3.1、内生偏好编码器3.2、外生内容编码器3.3、二者信息融合4、实验4.1、各模型的实验结果4.2、消融实验5、结论 此文章为NLP的分支方向:虚假新闻检测...
  • 在 大 众 点 评 网 获 取 的2009 -2012年 的5个 领 域 的 评 论 数 据 集 上 进 行 了 实验, 实验表明, 提取评论主题信息以及主题对立情感信息能够提高虚假评论的检测效果, TOSDM 的虚假 评 论 检...
  • 原文链接:虚假评价检测研究最新工作综述 本公众号在之前的推送中陆续介绍了一些在虚假评价检测研究中的最新工作,主要集中在新问题(冷启动,众包),新模型(relation embedding, node embedding)和算法优化...
  • 互联网的深度普及加速了“信息时代”的到来,网络中的每个人都可以极低甚至“零”成本的方式创造信息,同时每个人也都可以成为信息传播路径上的一个节点。这种获取、创造和传播信息的便捷给社会的进步和人类的发展...
  • 作者:Susan Li翻译:杨毅远校对:吴金笛本文长度为4400字,建议阅读8分钟本文为大家介绍了基于自然语言处理的COVID-19虚假新闻检测方法以及可视化方法,并结合真实的新闻数据集...
  • 目录 总体笔记 模型
  • 1、任务:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。 2、方法:训练一个二分类器,判别新闻是真还是假。 一、数据预处理: a、样本数据观察: 训练集有38471条数据,每条数据有id、text、label...
  • /1 P(A | B)=10/66 如果出现了灰色的云,下雨的概率是10/66 项目 通过对naivebayes分类器的简要介绍,让我们用naivebayes分类器来讨论假新闻检测。 考虑到新闻是假的,我们将统计一个词出现在标题中的次数。将其...
  • 虚假新闻检测数据集

    万次阅读 热门讨论 2019-04-02 10:01:26
    1.FakeNewsNet ... 说明:该数据集包含新闻内容和正确标注真假新闻标签的社会语境特征。 使用论文: (1)A Stylometric Inquiry into Hyperpartisan and Fake News ...(2)Exploiting Tri-Relationship for Fake News...
  • 针对互联网不良信息检测这一业务场景,探讨了基于网站文本内容进行检测的方法。回顾了经典的文本分析技术,重点介绍了Bert模型的关键技术特点及其两种不同用法。详细描述了利用其中的特征提取方法,进行网站不良信息...
  • 虚假新闻检测数据集 1.FakeNewsNet 下载链接:https://github.com/KaiDMML/FakeNewsNet 说明:该数据集包含新闻内容和正确标注真假新闻标签的社会语境特征。 使用论文: (1)A Stylometric Inquiry into ...
  • 一种基于信息检索与数据挖掘加权技术的虚假消息检测方法 .pdf
  • 一文看懂虚假新闻检测(附数据集 & 论文推荐)

    万次阅读 多人点赞 2019-02-19 08:37:22
    根据捕捉文本信息描述种类的不同,作者分为两类,检测欺骗程度,检测描述的主观客观程度(越客观公正的可能性越大)两种。震惊体的标题党就属于这类。  其中,假新闻可能用到的特征,包括普通特征和聚合特征两大类...
  • 基于把关人行为的微博虚假信息及早检测方法
  • 基于弱分类器集成的车联网虚假交通信息检测.pdf
  • 虚假新闻检测论文调研 Evidence Inference Networks for Interpretable Claim Verification 基本信息 发表刊物和年份:2021 AAAI 摘要 现有方法的缺点 现有的方法构造了适当的交互模型(文本与文本,文本与评论,...
  • Hsu C C, Lee C Y, Zhuang Y X. Learning to detect fake face images in the wild[C]//2018 International Symposium on Computer, Consumer... 我希望做的: complete generation检测(完全由GAN生成的虚假人脸检测

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,161
精华内容 5,264
关键字:

虚假信息检测

友情链接: yaoyaobang.rar