-
2019-01-21 16:36:54
怎样在Vue中定义组件并使用它?其实很简单!
在看懂我接下来的代码之前需要先把下面这幅图看懂 !
图应该很好理解,App.vue是一个根组件。此根组件包含一个首页组件和一个新闻组件,首页组件和新闻组件同时又包含头部组件。那么代码开始了。
App.vue(根组件)<template> <div id="app"> <v-home></v-home> <!-- 使用Home组件--> <hr> <br> <v-news></v-news> <!-- 使用News组件--> </div> </template> <script> /* 1.引入组件 2.挂载组件 3.在模板中使用 */ import Home from './components/Home.vue'; //引入首页组件 import News from './components/News.vue'; //引入新闻组件 export default { data(){ return { msg:'今天是个好天气' } }, components:{ /* 前面的组件名称不能和HTML标签一样*/ 'v-home':Home, //挂载Home组件 'v-news':News, //挂载新闻组件 } } </script> <style> </style>
越深入学习vue,就会发现根组件越简单,往往都是引入其他的组件。我已在代码中做了很详细的注解。接下来是各个引入的组件。
Home.vue(首页组件)
<template> <!-- 所有的内容要被根节点包含起来 --> <div id="home"> <v-header></v-header> <br> <h2>这也是一个首页组件---{{msg}}</h2> <button @click="run()">执行run方法</button> </div> </template> <script> //引入头部组件 import Header from './Header.vue'; export default { data(){ return{ msg:'我是一个首页组件', } }, methods:{ run(){ alert(this.msg); } }, components:{ 'v-header':Header, } } </script> <style lang="css" scoped> /* css 局部作用域 scoped*/ h2{ color:red; } </style>
其组件的定义和使用都是一样的,style中的scoped表示局部作用域,该样式只针对Home.vue 使用。
News.vue(新闻组件)
<template> <div> <v-header></v-header> <h2>这是一个新闻组件</h2> <ul> <li>aaaaaa</li> <li>bbbbb</li> <li>cccccc</li> <li>ddddd</li> </ul> </div> </template> <script> import Header from './Header.vue';//引入头部组件 export default { data(){ return{ msg:'我是一个新闻组件' } }, components:{ 'v-header':Header, } } </script> <style scoped> </style>
看到这里应该是知道如何定义和使用组件了吧,News.vue和Home.vue都引用了Header.vue,其步骤也是一样的
Header.vue(头部组件)
<template> <div> <h2 class="header">这是一个头部组件</h2> </div> </template> <script> export default { data(){ return{ msg:'我是一个头部组件' } } } </script> <style scoped> .header{ background:black; color: gainsboro; } </style>
最后的运行效果是这样的:
例外,还有一个要注意的问题就是导入组件的路径问题,我在导入时也犯了个小错:
import Home from './components/Home.vue'; //引入首页组件 import News from './components/News.vue'; //引入新闻组件
import Header from './Header.vue';//引入头部组件
一定要看清你自己的目录结构。
若有任何疑问或是不解,请在下方评论,谢谢。
更多相关内容 -
智媒时代机器人新闻对新闻生产的再定义.pdf
2021-08-14 16:21:44智媒时代机器人新闻对新闻生产的再定义.pdf -
新闻评论教程笔记定义.pdf
2022-03-14 02:59:17新闻评论教程笔记定义.pdf -
广播电视新闻[定义].pdf
2021-10-13 03:52:47广播电视新闻[定义].pdf -
新闻发布系统开题报告定义.pdf
2022-02-06 01:57:06新闻发布系统开题报告定义.pdf -
广播电视新闻学考试重点定义.pdf
2022-02-26 08:15:32广播电视新闻学考试重点定义.pdf -
定义“新闻素养”的挑战-研究论文
2021-06-09 12:47:46本研究简报是伯克曼中心青年和媒体团队对由麦考密克基金会赞助并由教育发展中心组织于 3 月 8 日和 3 月举行的第一次“为什么新闻很重要”受助人研讨会的贡献2013 年 1 月 11 日,芝加哥。 根据我们自己的研究和实践... -
5.21国际物联网最新新闻[定义].pdf
2021-10-10 23:50:115.21国际物联网最新新闻[定义].pdf -
2010年国内外新闻[定义].pdf
2021-10-10 23:14:452010年国内外新闻[定义].pdf -
news_sources:用于在新闻文本中定义新闻源的Python程序(俄语)
2021-04-04 17:28:51news_sources 用于在新闻文本中定义新闻源的Python程序(俄语)该程序查找对新闻源的典型引用(“根据...”,“ Facebook上的某人评论”等)并返回新闻源。 -
2017年10月自考新闻学新闻事业管理—测试题[定义].pdf
2021-10-10 23:33:502017年10月自考新闻学新闻事业管理—测试题[定义].pdf -
大数据方法与新闻传播创新:从理论定义到操作路线.doc
2020-10-30 00:23:02精品文档可编辑 值得下载 大数据方法与新闻传播创新从理论定义到操作路线 摘要文章对大数据大数据方法与大数据新闻传播的内涵进行了界定并从现实生活中新闻媒体对大数据的实际应用案例入手分析现阶段大数据方法在... -
广播电视新闻业务考试模拟题高仿真版(超全整理)定义.pdf
2021-11-18 20:29:11广播电视新闻业务考试模拟题高仿真版(超全整理)定义.pdf -
《新闻事业管理》各章知识点完全归纳(电子版)定义.pdf
2021-10-30 10:57:37《新闻事业管理》各章知识点完全归纳(电子版)定义.pdf -
能否让算法定义社会——传媒社会学视角下的新闻算法推荐系统.pdf
2021-08-21 23:30:28能否让算法定义社会——传媒社会学视角下的新闻算法推荐系统.pdf -
sql-social-news-schema-modeling:社交新闻聚合器的架构定义和迁移
2021-04-05 23:05:14sql-social-news-schema-modeling 社交新闻聚合器的架构定义和迁移。 -
布局:通过网站结构数据检测假新闻发布者-研究论文
2021-06-10 07:47:00此外,我们还表明,所有模型性能都取决于对虚假和传统新闻网站定义的严格程度。 具体而言,当这些定义更具限制性时,模型性能更高。 最后,我们证明了现有的基于内容的模型的性能通过结合结构特征显着提高,特别是... -
“走蒸汽机之路”-机构出版社,互联网和新闻条款的悖论-研究论文
2021-05-19 14:28:46在过去的两年中,学者们就如何定义互联网时代的“新闻界”以及达成一致,稳定的定义所遇到的困难如何影响新闻界对宪法保护的主张进行了热烈的辩论。 由于篇幅所限,无法对这些辩论进行全面分析,更不用说解决方案了... -
使用NLP检测和对抗AI生成的假新闻
2020-06-14 12:17:02本文讨论了不同的自然语言处理方法,以开发出对神经假新闻的强大防御,包括使用GPT-2检测器模型和Grover(AllenNLP) 每位数据科学专业人员都应了解什么是神经假新闻以及如何应对它 介绍 假新闻是当今社会关注的...作者|MOHD SANAD ZAKI RIZVI 编译|VK 来源|Analytics Vidhya
概述
- 由AI生成的假新闻(神经假新闻)对于我们的社会可能是一个巨大的问题
- 本文讨论了不同的自然语言处理方法,以开发出对神经假新闻的强大防御,包括使用GPT-2检测器模型和Grover(AllenNLP)
- 每位数据科学专业人员都应了解什么是神经假新闻以及如何应对它
介绍
假新闻是当今社会关注的主要问题。它与数据驱动时代的兴起并驾齐驱,这并非巧合!
假新闻是如此广泛,以至于世界领先的字典都试图以自己的方式与之抗争。
- Dictionary.com将misinformation'列为2018年度最佳词汇
- 牛津词典几年前选择“post-truth”作为年度最佳词汇
那么机器学习在其中扮演了什么角色呢?我相信你一定听说过一种机器学习技术,它甚至可以生成模仿名人的假视频。类似地,自然语言处理(NLP)技术也被用来生成假文章,这一概念被称为“神经假新闻”。
过去几年,我一直在自然语言处理(NLP)领域工作,虽然我喜欢取得突破性进展的速度,但我也对这些NLP框架被用来创建和传播虚假信息的方式深感担忧。
高级的预训练NLP模型,如BERT,GPT-2,XLNet等,很容易被任何人下载。这就加大了他们被利用来传播宣传和社会混乱的风险。
在这篇文章中,我将对神经假新闻做一个全面的研究——从定义它是什么,到理解识别这种错误信息的某些方法。我们还将详细了解这些最先进的语言模型本身的内部工作原理。
目录
什么是神经假新闻?
大型语言模型如何被滥用来产生神经假新闻?
如何检测神经假新闻?
事实核查
使用GLTR(HarvardNLP)进行统计分析
利用模型检测神经假新闻
- GPT-2探测器
- Grover 模型
当前检测技术的局限性及未来研究方向
什么是神经假新闻?
我相信你最近听说过“假新闻”这个词。它几乎在每个社交媒体平台上都广泛使用。近年来,它已成为社会和政治威胁的代名词。但什么是假新闻?
以下是维基百科的定义:
“假新闻(又称垃圾新闻、假新闻或骗局新闻)是指通过传统新闻媒体(印刷和广播)或在线社交媒体故意造谣传播的新闻形式。”
假新闻是指任何事实上错误的、歪曲事实的、病毒性传播(或可能传播给目标受众)的新闻。它既可以通过常规新闻媒体传播,也可以在Facebook、Twitter、WhatsApp等社交媒体平台上传播。
假新闻,如“登月是假的”难以区分的原因是,它仔细模仿了真实新闻通常遵循的“风格”和“模式”。这就是为什么未经训练的人眼很难分辨。
另外,有趣的是,假新闻已经存在了很长很长时间(实际上,贯穿我们的历史)。
神经假新闻
神经假新闻是利用神经网络模型生成的任何假新闻。或者更正式地定义它:
神经假新闻是一种有针对性的宣传,它紧密模仿由神经网络生成的真实新闻的风格。
下面是OpenAI的GPT-2模型生成的神经假新闻的一个例子:
“system prompt”是一个人给模型的输入,“model completion”是GPT-2模型生成的文本。
你凭直觉猜到后一部分是机器写的吗?请注意,该模型能够多么令人难以置信地将提示进行扩展,形成一个完整故事,这看起来乍一看令人信服。
现在,如果我告诉你GPT-2模型可以免费供任何人下载和运行呢?这正是研究界关注的问题,也是我决定写这篇文章的原因。
大型语言模型如何被滥用来产生神经假新闻?
语言建模是一种NLP技术,模型通过从句子本身理解上下文来学习预测句子中的下一个单词或缺失的单词。以谷歌搜索为例:
这是一个正在运行的语言模型的例子。通过让模型预测一个句子中的下一个单词或一个丢失的单词,我们让模型学习语言本身的复杂性。
这个模型能够理解语法是如何工作的,不同的写作风格,等等。这就是为什么这个模型能够生成一段对未经训练的人来说可信的文本。当同样的模式被用来产生有针对性的宣传来迷惑人们时,问题就出现了。
下面是一些非常强大的最先进的语言模型,它们非常擅长生成文本。
1.谷歌的BERT
BERT是一个由Google设计的语言模型,它打破了最先进的记录。该框架是最近各种研究实验室和公司大力训练和研究大型语言模型的原因。
BERT和Facebook、XLM、XLNet、DistilBERT等公司的RoBERTa在文本生成方面表现非常出色。
2.OpenAI的GPT-2模型
来自OpenAI的GPT、GPT-2和GPT-Large等一系列语言模型,因其文本生成能力而在媒体上引起轰动。这些是我们绝对应该知道的一些语言模型。
3.Grover
Grover是AllenNLP提出的一个有趣的新语言模型,它不仅能够生成文本,而且能够识别其他模型生成的伪文本。
我们将在文章的后面进一步了解Grover。
如何检测神经假新闻?
我们怎样才能发现或找出一条新闻是假的?目前,处理神经假新闻的方法主要有三种,都取得了很好的效果。
I.事实核查
检查一条在网上传播的新闻是假的还是真的,最基本的方式是什么?我们可以简单地谷歌它,参考值得信赖的新闻网站,并事实检查他们是否有相同或类似的故事。
尽管这一步让人感觉像是常识,但它实际上是确保一条新闻真实性的最有效方法之一。
但这一步只处理一种虚假新闻:来自单一来源的新闻。如果我们想处理那些已经走红并被我们周围的媒体大量报道的新闻呢?
这通常是一种由神经网络生成的新闻,因为新闻在“风格”和“结构”上与真实新闻非常相似。
让我们学习一些处理“机器生成”文本的方法。
II.使用GLTR(HarvardNLP)进行统计分析
GLTR是由HarvardNLP和MIT-IBM Watson实验室的专家们设计的一个工具。
GLTR用于识别机器生成文本的主要方法是通过对给定文本进行的统计分析和可视化。
下面是GLTR接口:
GLTR检测生成的文本的中心思想是使用最初用于生成该文本片段的相同(或类似)模型。
原因很简单,一个语言模型直接生成的单词来自于它从训练数据中学习到的概率分布。
下面是一个示例,请注意语言模型如何生成一个概率分布,作为对所有可能单词具有不同概率的输出:
由于我们已经知道从给定的概率分布中抽取单词的技术,如最大抽样、k-max抽样、波束搜索、核抽样等,我们可以很容易地交叉检查给定文本中的单词是否遵循特定的分布。
如果是的话,而且在给定的文本中有多个这样的单词,那么这基本上可以确认它是机器生成的。
让我们用一个例子运行GLTR来理解这个概念!
安装GLTR
在使用GLTR之前,我们需要在系统上安装它。首先克隆项目的GitHub存储库:
git clone https://github.com/HendrikStrobelt/detecting-fake-text.git
克隆存储库后,将cd放入其中并执行pip安装:
cd detecting-fake-text && pip install -r requirements.txt
接下来,下载预先训练好的语言模型。可以通过运行服务器来完成此操作:
python server.py
GLTR目前支持两种模型:BERT和GPT-2。你可以在两者之间进行选择;如果未提供任何选项,则使用GPT-2:
python server.py --model BERT
这将开始在你的机器上下载相应的预训练模型。如果你的网速很慢,给它点时间。
当一切就绪时,服务器将从端口5001启动,你可以直接转到http://localhost:5001访问它:
GLTR是如何工作的?
假设我们有下面这段文字。我们要检查它是否由GPT-2这样的语言模型生成:
How much wood would a woodchuck chuck if a woodchuck could chuck wood?
GLTR将接受这个输入并分析GPT-2对每个输入位置的预测。
请记住,语言模型的输出是该模型知道的所有单词的排名,因此,我们根据GPT-2的排名将能够迅速查看输入文本中每个单词。
如果我们根据每个单词在前10名中是否是绿色、前100名中是否是黄色和前1000名中是否是红色对其进行颜色编码,我们将得到以下输出:
现在,我们可以直观地看到,根据GPT-2,每个单词的可能性有多大。根据模型,绿色和黄色是很有可能的,而红色是意料之外的词,这意味着它们很可能是由人类书写的。这正是你将在GLTR接口上看到的!
如果你需要更多的信息,你可以把鼠标悬停在“wood”这个词上。你会看到一个小盒子,上面有这个位置的前5个预测词及其概率:
我鼓励你尝试不同的文本,可以是人类产生的或者机器产生的。GLTR工具本身也已经提供了一些示例:
你会注意到,当你移到真正的文本时,红色和紫色的单词数量,即不太可能或罕见的预测,会增加。
此外,GLTR还显示了三种不同的直方图,其中包含整个文本的聚合信息(请查看下面的图片以供参考):
第一个显示每个类别(前10个、前100个和前1000个)在文本中出现的单词数
第二个例子说明了前一个预测词和后一个预测词的概率之比
第三个直方图显示了预测熵的分布。低不确定性意味着模型对每个预测都非常有信心,而高不确定性意味着低信心
以下是这些直方图的帮助:
前两个柱状图有助于理解输入文本中的单词是否从分布的顶部取样(对于机器生成的文本,基本上就是从分布顶部采样)
最后一个直方图说明单词的上下文是否为检测系统所熟知(对于机器生成的文本,基本上就是熟知)
GLTR模型将这些多重可视化和概率分布知识结合起来,可以作为一种有效的法医学工具来理解和识别机器生成的文本。
以下是对GLTR的报道:
“在一项人类受试者研究中,我们发现GLTR提供的注释方案在不经过任何训练的情况下将人类对假文本的检测率从54%提高到72%。”–Gehrmann等人
你可以在最初的研究论文中阅读更多关于GLTR的内容:https://arxiv.org/pdf/1906.04043.pdf。
利用模型检测神经假新闻
GLTR是相当令人印象深刻的,因为它使用概率分布和可视化的简单知识来检测神经假新闻。但如果我们能做得更好呢
如果我们能训练一个大的模型来预测一段文字是否是神经假新闻呢?
好吧,这正是我们在这一节要学的
GPT-2 探测器
GPT-2检测器模型是一个RoBERTa(BERT的变种)模型,它经过微调以预测给定的文本是否是使用GPT-2生成的(作为一个简单的分类问题)。
RoBERTa是Facebook人工智能研究开发的一个大型语言模型,是对Google的BERT的改进。这就是为什么这两个框架有很大的相似之处。
这里需要注意的一点是,尽管RoBERTa的模型结构与GPT-2的模型结构非常不同,因为前者是一个屏蔽语言模型(如BERT),与GPT-2不同,前者在本质上不是生成的。GPT-2在识别由它生成的神经假新闻方面仍然显示了大约95%的准确性。
这个模型的另一个优点是,与我们在本文中讨论的其他方法相比,它的预测速度非常快。
让我们看看它!
安装GPT-2探测器模型
这个探测器模型的安装步骤非常简单,就像GLTR一样。
我们首先需要克隆存储库:
git clone https://github.com/openai/gpt-2-output-dataset.git
然后
cd gpt-2-output-dataset/ && pip install -r requirements.txt
接下来,我们需要下载预训练好的语言模型。通过运行以下命令执行此操作:
wget https://storage.googleapis.com/gpt-2/detector-models/v1/detector-base.pt
这一步可能需要一些时间。完成后,你可以启动探测器:
python -m detector.server detector-base.pt --port 8000
一切就绪后,服务器将从端口8000启动,你可以直接转到http://localhost:8000访问它!
有了这个,你就可以尝试GPT-2探测器模型了!
识别神经假新闻
探测器模型的接口非常简单。我们只需复制粘贴一段文本,它就会告诉我们它是“真的”还是“假的”,这取决于它是否由机器(GPT-2模型)生成。
以下是我使用Transformers 2.0库从GPT-2生成的文本:
如你所见,尽管文本看起来很有说服力和连贯性,但模型直接将其归类为“假的”,准确率为99.97%。
这是一个非常有趣的工具使用,我建议你去尝试不同的例子,生成和未生成的文本,看看它如何执行!
在我的例子中,我通常注意到这个模型只能很好地识别GPT-2模型生成的文本。这与Grover完全不同,Grover是我们将在下一节中学习的另一个框架。Grover可以识别由各种语言模型生成的文本。
你可以在Facebook的博客上阅读更多关于RoBERTa的架构和训练方法。如果你对如何实现检测器模型感到好奇,可以在GitHub上检查代码。
Grover
Grover是我在本文讨论的所有选项中最喜欢的工具。与GLTR和GPT-2检测器模型仅限于特定模型不同,它能够将一段文本识别为由大量多种语言模型生成的伪文本。
作者认为,检测一段文本作为神经假新闻的最佳方法是使用一个模型,该模型本身就是一个能够生成此类文本的生成器。用他们自己的话说:
“生成器最熟悉自己的习惯、怪癖和特性,也最熟悉类似人工智能模型的特性,特别是那些接受过类似数据训练的人工智能模型。”–Zellers等人
乍一看听起来有违直觉,不是吗?为了建立一个能够检测出神经假新闻的模型,他们继续开发了一个模型,这个模型一开始就非常擅长生成这样的假新闻!
听起来很疯狂,但背后有自己的一个科学逻辑。
Grove是怎么工作的?
问题定义
Grover将检测神经假新闻的任务定义为一个具有两个模型的对抗游戏:
设置中有两个模型用于生成和检测文本
对抗模型的目标是产生虚假的新闻,这些新闻可以是病毒性传播的,或者对人类和验证模型都有足够的说服力
验证器对给定文本是真是假进行分类:
- 验证者的训练数据包括无限的真实新闻,但只有一些来自特定对手的假新闻
- 这样做是为了复制真实世界的场景,在真实世界中,对手提供的虚假新闻数量与真实新闻相比要少得多
这两种模式的双重目标意味着,攻击者和捍卫者之间在“竞争”,既产生虚假新闻,又同时发现虚假新闻。随着验证模型的改进,对抗模型也在改进。
神经假新闻的条件生成
神经假新闻的最明显特征之一是它通常是“有针对性的”内容,例如点击诱饵或宣传,大多数语言模型(例如BERT等)都不允许我们创建这种受控文本。
Grover支持“受控”文本生成。这仅仅意味着除了模型的输入文本之外,我们可以在生成阶段提供额外的参数。这些参数将引导模型生成特定的文本。
但这些参数是什么?考虑一下新闻文章——有助于定义新闻文章的结构参数是什么?以下是Grover的作者认为生成文章所必需的一些参数:
领域:文章发布的地方,它间接地影响样式
日期:出版日期
作者:作者姓名
标题:文章的标题,这影响到文章的生成
正文:文章的正文
结合所有这些参数,我们可以通过联合概率分布对一篇文章进行建模:
现在,我将不再深入讨论如何实现这一点的基础数学,因为这超出了本文的范围。但是,为了让你了解整个生成过程的样子,这里有一个示意图:
下面是流程:
在a行中,正文由部分上下文生成(缺少作者字段)
在b行中,模型生成作者
在c行中,该模型重新生成提供的标题,使之更为真实
架构和数据集
Grover使用与GPT2相同的架构:
有三种型号。最小的模型Grover-Base有12层,1.24亿个参数,与GPT和BERT-Base相当
下一个模型Grover Large有24个层和3.55亿个参数,与BERT Large相当
最大的模型Grover Mega有48层和15亿个参数,与GPT2相当
用来训练Grover的RealNews数据集是Grover的作者自己创建的。数据集和创建它的代码是开源的,因此你可以下载并按原样使用它,也可以按照Grover的规范生成自己的数据集。
安装Grover
你可以按照安装说明安装Grover,并在自己的机器上运行它的生成器和检测器工具。请记住,该模型的大小是巨大的(压缩后还有46.2G!)所以在你的系统上安装它可能是一个挑战。
这就是为什么我们会使用在线检测器和生成器工具。
使用Grover进行生成和检测
你可以通过以下链接访问该工具:
https://grover.allenai.org/
你可以玩一下Generate选项,看看Grover生成神经假新闻的能力有多强。因为我们有兴趣检查Grover的检测能力,所以让我们转到“检测”选项卡(或转到以下链接):
https://grover.allenai.org/detect
案例研究1:
我们要测试的文本与前面看到的GPT-2生成的文本相同:
当你点击“检测假新闻”按钮时,你会注意到Grover很容易将其识别为机器生成的:
案例研究2:
我们要测试的下一篇文章来自纽约时报:
你会发现格罗弗确实能认出它是一个人写的:
案例研究3:
这些都是简单的例子。如果我给它一段技术性的文字怎么办?像技术博客里的解释
对于我自己提供的文本,Grover失败了,因为它没有接受过此类技术文章的训练:
但是GPT-2探测器模型却起作用了,因为它是在各种各样的网页上被训练的(800万!)。
这只是为了表明没有一个工具是完美的。
案例研究4:
她是我们要做的最后一个实验。我们将测试机器生成的新闻,这些新闻不是“假的”,只是自动生成新闻的一个例子。本文摘自华盛顿邮报:
有趣的是,GPT-2探测器模型说它根本不是机器生成的新闻:
但同时,Grover能够识别出它是机器编写的文本,概率略低(但它还是能找出答案!):
现在,不管你是否认为这是“假”新闻,事实是它是由机器生成的。如何对这类文本进行分类将取决于你的目标是什么以及你的项目试图实现什么。
简而言之,检测神经假新闻的最佳方法是综合运用所有这些工具并得出比较结论。
当前虚假新闻检测技术的局限性及未来研究方向
很明显,目前的检测技术还不完善,还有发展的空间。麻省理工学院计算机科学与人工智能实验室(CSAIL)最近对现有的神经假新闻检测方法进行了研究,他们的一些发现令人大开眼界。
现有神经假新闻检测技术的局限性
研究的主要结论是,GLTR、Grover等方法用于神经假新闻检测的现有方法是不完全的。
这是因为仅仅发现一条文本是否是“机器生成”是不够的,可能有一条合法的新闻是通过诸如自动完成、文本摘要等工具机器生成的。
例如,著名的写作应用程序Grammarly使用某种形式的GPT-2来帮助纠正文本中的语法错误。
这类案例的另一个例子是本文前一节的案例研究4,其中一个程序被《华盛顿邮报》用来生成体育新闻。
反之,也可能存在被攻击者轻微破坏/修改的人工文本,根据现有方法,这些文本将被归类为非神经假新闻。
下面是一个例子,总结了探测器模型的上述困境:
从上图中可以清楚地看到,由于生成的神经假新闻和真实新闻的特征空间非常远,所以模型很容易对哪一个是假的进行分类。
此外,当模型必须在真实生成的新闻和神经假新闻之间进行分类时(如我们之前看到的案例研究4),由于两者的特征空间非常接近,因此模型无法检测。
当模型必须区分生成的人工新闻和经过一点修改而变成假的新闻时,也会看到同样的行为。
我不想详细介绍,但作者进行了多次实验得出这些结论,你可以阅读他们的论文了解更多:https://arxiv.org/pdf/1908.09805.pdf。
这些结果使作者得出结论,为了定义/检测神经假新闻,我们必须考虑真实性,而不是来源(来源,无论是机器写的还是人类写的)。
我认为这是一个让我们大开眼界的结论。
未来的研究方向是什么
处理神经假新闻问题的一个步骤是,剑桥大学和亚马逊去年发布了FEVER,这是世界上最大的事实核查数据集,可用于训练神经网络检测假新闻。
尽管由麻省理工学院的同一个研究小组(Schuster等人)分析FEVER时,他们发现FEVER数据集存在某些偏差,使得神经网络更容易通过文本中的模式来检测假文本。当他们纠正了数据集中的一些偏差时,他们发现模型的准确性如预期的那样急剧下降。
然后,他们将GitHub上对称的修正后的数据集热开源,作为其他研究人员测试其模型的基准,我认为这对正在积极尝试解决神经假新闻问题的整个研究界来说是一个好的举措。
如果你有兴趣找到更多关于他们的方法和实验的信息,请阅读他们的原始论文:https://arxiv.org/pdf/1908.05267.pdf。
因此,创建大规模无偏数据集,我认为是未来研究如何处理神经假新闻方向的良好第一步,因为随着数据集的增加,研究人员和组织建立模型以改进现有基准的兴趣也会增加。这和我们过去几年在NLP(GLUE, SQUAD)和CV(ImageNet)中看到的一样。
除此之外,当我考虑到我们所遇到的大多数研究时,这里有一些我们可以进一步探索的方向:
我个人认为,像Grover和GLTR这样的工具是检测神经假新闻的良好起点,它们为我们如何创造性地利用现有知识构建能够检测假新闻的系统树立了榜样。因此,我们需要在这个方向上进行进一步的研究,改进现有的工具,并不仅针对数据集,而且在现实环境中更有效地验证它们。
FEVER数据集的发布是一个值得欢迎的举动,它将有助于我们在各种环境中探索和构建更多这样的带有假新闻的数据集,因为这将直接推动进一步的研究。
通过模型发现文本的准确性是一个具有挑战性的问题,但是我们需要以某种方式构造它,以便更容易创建有助于训练能够根据文本的真实性对其进行身份验证的模型的数据集。因此,这方面的进一步研究是值得欢迎的。
正如Grover和GLTR的作者正确地提到的那样,我们需要通过在未来发布大型语言模型(如GPT-2、Grover等)来继续研究社区的开放性,因为只有当我们知道对手有多强大时,我们才能建立强大的防御。
原文链接:https://www.analyticsvidhya.com/blog/2019/12/detect-fight-neural-fake-news-nlp/
欢迎关注磐创AI博客站: http://panchuang.net/
sklearn机器学习中文官方文档: http://sklearn123.com/
欢迎关注磐创博客资源汇总站: http://docs.panchuang.net/
-
【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective
2020-06-09 23:35:17论文题目:Fake News Detection on Social Media: ...文章目录1 摘要2 引言3 假新闻的特点3.1 虚假新闻的定义3.2 传统新闻媒体上的虚假新闻3.3 社交媒体上的虚假新闻4 假新闻检测4.1 问题定义4.2 特征抽取4.2.1 新闻内.论文题目:Fake News Detection on Social Media: A Data Mining Perspective
论文来源:KDD 2017 美国亚利桑那州立大学, 美国密歇根州立大学
论文链接:https://arxiv.org/abs/1708.01967
关键词:虚假新闻检测,社交媒体,综述
文章目录
1 摘要
社交媒体对于新闻来说是一把双刃剑。既有利于高质量新闻的获取和传播,也有利于虚假新闻的广泛传播。
社交媒体上的假新闻检测有着独有的特点,使得传统的新闻检测算法不适用于虚假新闻的检测。
虚假新闻的特点有:
(1)故意写出来的,以误导读者去相信虚假信息,因此基于新闻内容很难检测出来。因此需要辅助信息,例如用户在社交媒体上的社交行为,来帮助我们进行决策。
(2)利用这些辅助信息是有挑战性的,因为用户与假新闻交互产生的数据是巨大的、不完整的、无结构的并且有噪声。
本文聚焦于社交媒体上的虚假新闻检测问题,进行综述。包括心理学理论和社会学理论层面的虚假新闻的特点,虚假新闻的评估度量和已有的数据集。本文还讨论了社会媒体上的虚假新闻检测的相关的研究领域、开放的问题和未来的研究方向。
2 引言
(1)新闻在社交媒体上的兴起
随着人们越来越多地通过社交媒体平台进行交互,越来越多的人倾向于从社交媒体上而不是从传统的新闻机构来寻找新闻。这是因为社交媒体平台有着天然的特性:(1)和传统的新闻媒介(报纸,电视)相比,在社交媒体上可以及时并方便地获取新闻;(2)在社交媒体上对新闻进行分享、评论、与他人讨论显得更加简单方便。
(2)虚假新闻的危害
尽管社交媒体有着上述优点,但是社交媒体上新闻的质量却不如传统新闻机构上的新闻。社交媒体上新闻可以快速方便地进行传播的特点,也有助于了虚假新闻的快速传播,这对个人和社会都产生了一系列负面影响:
1)大多数虚假新闻比真正的主流新闻传播范围更广;
2)虚假新闻有意的说服读者去接收有偏差的或虚假的信息。虚假新闻通常是被操纵者所利用,来传递政治信息或者相关影响;
3)假新闻改变了人们解读和回应真实新闻的方式。例如,有的假新闻单纯是为了引起人们的怀疑,干扰他们区分真实的能力。
为了减弱假新闻的负面影响,营造良好的社会氛围和新闻生态环境,研究出在社交媒体上自动检测出虚假新闻的方法是十分有必要的。
(3)在社交媒体上进行虚假新闻检测的挑战
虽然假新闻本身并不是一个新的研究问题,但是在社交媒体上的网络生成新闻的兴起为假新闻赋予了强大的力量,使其可以挑战传统规范的新闻。社交媒体上的虚假新闻有以下一些特点,使得自动化的检测富有挑战:
1)假新闻是故意创作出来的,目的就是为了误导读者,因此基于新闻内容很难简单地检测出来。
假新闻的内容在主题上、风格上和社交平台上具有多样性,并且使用多样的语言风格扭曲事实。例如,虚假新闻可能会引用真实的信息来支持一个非事实的主张。因此,手工选取的特征和针对特定数据的文本特征不能有效地用于假新闻的检测。需要考虑其他的辅助信息来提高检测能力,例如知识库和用户的社交行为。
2)辅助信息的质量无法保证。假新闻通常与新出现的事件有关,由于缺乏确凿的证据或主张,这些事件可能还没有被现有的知识所证实。
3)用户在社交媒体上和虚假新闻进行接触产生的数据量巨大,并且数据不完整、无结构,还带有噪声。
(4)本文贡献
本文将从两个角度回顾假新闻检测问题:特点和检测。如图 1所示,我们首先使用心理学和社会学的理论描述了假新闻检测问题的背景,然后给出检测方法。本文贡献如下:
1)讨论了假新闻的狭义和广义的定义,进一步提出了社交媒体上的虚假新闻特有的特性;
2)对现有的假新闻检测方法进行了综述,将其分为不同的类别;
3)讨论了一些开放的问题并给出了社交媒体上的虚假新闻检测未来的研究方向。
3 假新闻的特点
本节介绍和假新闻有关的基本社会学和心理学理论,并且社交媒体引入的更高级的模式。首先讨论虚假新闻的定义,然后从不同的角度描述传统媒体上的虚假新闻,接着引出虚假新闻在社交媒体上的新模式。
3.1 虚假新闻的定义
虚假新闻几乎是和印刷机在同一时段诞生的(1439年),但是还没有一个针对虚假新闻的公认的定义。本文比较了一些论文中给出的广泛使用的虚假新闻的定义,并且给出了本文的定义。
(1)狭义的定义
有意的、被证实为错误的并且会误导读者的新闻文章。
这一定义中有两个关键特征:真实性和目的性。
(2)广义的定义
既不聚焦于真实性也不聚焦于目的性。一些文献将讽刺性的新闻视为假新闻,尽管讽刺新闻往往以娱乐为导向,但是向读者暴露出了欺骗性,并且内容是虚假的。还有一些文献将有欺骗性的新闻视为虚假新闻。
(3)本文的定义
本文使用的是狭义的定义,定义如下:
虚假新闻是有意图的并且被证实是假的新闻文章。
采用狭义的定义的原因有三点:
1)假新闻的潜在意图提供了理论和实践价值,使得我们能深入地理解和分析。
2)任何用于事实验证的方法都可以应用到狭义概念的假新闻中,也可以用于广义概念的假新闻。
3)这一概念可以消除假新闻和本文未考虑的相关概念之间的歧义。下面列出的概念不是本文定义范围内的假新闻:
- 没有误导意图且不会被错认为是事实的讽刺新闻;
- 与新闻事件无关的谣言;
- 不易被证实为是真还是假的阴谋论;
- 无意间创造出的错误信息;
- 仅仅出于乐趣或者是为了欺骗目标个体的恶作剧。
3.2 传统新闻媒体上的虚假新闻
假新闻本身并不是一个新问题,随着新闻媒介的发展,假新闻也从在报纸传播发展为广播/电视传播,再到如今的在线新闻和社交媒体传播。传统的虚假新闻指的是社交媒体之前的媒介,对其产生和传播起到重要作用。
接下来将阐述和假新闻有关的心理学和社会学理论。
(1)虚假新闻的心理学基础
人们天然就不擅长区分假新闻和真新闻。一些心理学和认知学的理论可以解释这一现象和假新闻的影响力。
传统的假新闻主要利用读者的个人弱点来对其进行攻击。主要有两个因素,使得读者天然地易受假新闻的攻击:
1)朴素实在论:人们倾向于认为他们对现实的感知是正确的,而不同意的人则被认为是物质的、非理性的或有偏见的;
2)确认偏差:人们更愿意接受符合他们世界观价值观的事。
由于人们天然有这些认知偏差,因此虚假新闻会被人们认为是真实的。而且这种错误认识一旦形成就很难更正。心理学的研究表明,给出事实试图更正错误信息不仅不能减少错误认知,有时还会加剧错误认知。
(2)虚假新闻生态系统的社会学基础
前景理论(prospect theory)将决策描述成一个过程,在这个过程中,人们根据相对于他们当前状态的得失做出选择。人们在传播新闻信息时,倾向于选择“社交安全(social safe)”的观点,尽管分享的新闻是假新闻。
这种假新闻互动的理论可以从经济学博弈的角度进行建模。我们将新闻的生成和消费周期构建成一个两人博弈。在这个信息生态系统中,我们假定有两个玩家:发布者和消费者。新闻的发布过程建模成从原始信号 s s s到新闻 a a a的映射,映射过程有一个失真偏差 b b b,例如: s → b a s \xrightarrow{b} a sba, b = [ − 1 , 0 , 1 ] b = [-1, 0, 1] b=[−1,0,1]表示 [ l e f t , n o , r i g h t ] [left, no, right] [left,no,right]。
发布者的效用有两个角度:1)短期效用:最大化利润的动机,与消费者的数量成正相关;2)长期效用:发布者在新闻真实性上的声誉。
消费者的效用由两部分组成:1)信息的效用:获得真实且无偏差的信息,通常需要额外的投资成本;2)心理学效用:得到满足他们先验观点和社交需要的新闻,例如验证偏差和前景理论。
发布者和消费者都希望在新闻的消费过程中最大化他们的整体效用。当虚假新闻发生的时候,也就是短期效用在发布者整体效用中占主导地位,心理学效用在消费者整体效用中占主导地位,并且达到均衡。
3.3 社交媒体上的虚假新闻
本节将介绍社交媒体上的虚假新闻具有的特性。注意,之前提到的传统虚假新闻的特性也适用于社交媒体上的虚假新闻。
(1)社交媒体上以传播信息为目的的恶意账号
虽然社交媒体上的大多数用户是正常的,由于制造社交媒体账号的低成本,有一些用户可能是虚假用户,甚至可能是机器人。
社交机器人(social bot)指的是该社交媒体账号由计算机程序控制,可以自动地生成内容并和社交媒体上的其他人进行交互。如果社交机器人有意地复制、传播假新闻,那么它就是一个恶意账号。
网络水军(troll)指的是真实的人类用户,目的是为了扰乱网络社区的秩序、煽动网民情绪(例如 愤怒,恐惧)。水军也在虚假新闻传播上发挥了重要作用。
电子人用户(cyborg user)可以使用自动化和人工输入相结合的方式传播假新闻。cyborg账户由人类注册并伪装,并设定自动程序在社交媒体上进行活动。人与机器间的轻松切换为cyborg用户提供了传播虚假新闻的独有机会。
总的来说,这些持续活跃的或间歇活跃的社交媒体上的恶意账户成为了假新闻传播的强有力的源头。
(2)回音壁效应
新闻可以在社交媒体主页上进行显示,因此消费者会有选择地接触到某些类型的新闻,这加大了消除假新闻的挑战。
例如,Facebook的用户总是关注志同道合的人,因此会接收到他们喜欢的新闻。因此社交媒体上的用户往往会形成志趣相投的群体,在这些群体间的观点不同,这就容易形成回音壁效应。
回音壁效应在媒体上是指在一个相对封闭的环境上,一些意见相近的声音不断重复,并以夸张或其他扭曲形式重复,令处于相对封闭环境中的大多数人认为这些扭曲的故事就是事实的全部。
回音壁效应和以下的心理学因素有关:1)社交信誉:如果其他人认为消息来源是可信的,人们更有可能也相信消息来源是可信的,尤其是在没有足够的信息证明消息来源的真实性时;2)频率启发式:消费者天然地倾向于喜欢他们经常听到的信息,尽管是虚假新闻。
研究表明,增加对某一观点的接触就足以对其产生积极的看法。在回音壁中,用户持续地分享和消费相同的信息。因此,在有限的信息生态系统中,回音壁效应创造出了不相交的同质的社区。研究表明同质社区称为信息传播的主要源头,这进一步加剧了意见的两极分化。
4 假新闻检测
前面的章节给出了传统假新闻的特性以及社交媒体上假新闻的特性,基于这些特性,我们接着进行问题的定义并总结假新闻检测的方法。
4.1 问题定义
引入假新闻关键组件的定义,然后给出假新闻检测的规范定义。
(1)基本符号定义
1) a a a表示一篇新闻文章,它由两部分组成:发布者和内容。发布者 p a ⃗ \vec{p_a} pa包括一组描述原始作者的特征集合,例如姓名、领域、年龄和其他属性。内容 c a ⃗ \vec{c_a} ca包括表示新闻文章的属性信息,例如标题、文本、图片等。
2)将社交新闻活动定义为元组的集合 E = { e i t } \mathcal{E} = {\{e_{it}}\} E={eit},表示新闻随时间在 n n n个用户 U = { u 1 , u 2 , . . . , u n } \mathcal{U} = {\{u_1, u_2, ..., u_n}\} U={u1,u2,...,un}间传播的过程,以及用户在社交媒体上发布的关于新闻文章 a a a的帖子 P = { p 1 , p 2 , . . . , p n } \mathcal{P} = {\{p_1, p_2, ..., p_n}\} P={p1,p2,...,pn}。活动 e i t = u i , p i , t e_{it} = {u_i, p_i, t} eit=ui,pi,t表示用户 u i u_i ui在时间 t t t使用了 p i p_i pi来传播新闻文章 a a a。
若文章 a a a没有任何活动,则 t = N U L L t=NULL t=NULL, u i u_i ui就表示发布者。
(2)假新闻检测
给定对于新闻文章 a a a在 n n n个用户间的社交新闻活动 E \mathcal{E} E,假新闻检测任务就是预测 a a a是否是一个假新闻(二分类问题)。例如, F : E → { 0 , 1 } \mathcal{F}: \mathcal{E}\rightarrow {\{0, 1}\} F:E→{0,1}, F \mathcal{F} F就是我们想要学习到的预测函数:
接下来,我们提出一个包括两个阶段的用于假新闻检测的数据挖掘框架:1)特征的抽取;2)模型的构建。
特征抽取阶段目的是用数学结构表示新闻内容和相关的辅助信息,模型构建阶段时构建机器学习模型以基于特征表示更好地区分出虚假新闻。
4.2 特征抽取
传统新闻媒体上的假新闻检测主要依赖于新闻的内容,然而在社交媒体中,抽取出社交相关的辅助信息有助于检测出假新闻。因此,我们给出了如何从新闻内容和社交上下文中抽取和表示有用特征的细节。
4.2.1 新闻内容特征
新闻内容特征 c a ⃗ \vec{c_a} ca描述了和一篇新闻有关的元信息。可表示新闻内容的属性有:
- 源(source):新闻文章的作者或发布者;
- 标题(headline):吸引读者注意力,描述文章的主题;
- 内容(body text):描述新闻故事的细节,反映发布者的角度;
- 图像/视频:新闻主体的一部分
基于这些原始的内容属性,可以构建出不同种类的特征表示以抽取出假新闻的特性。一般将新闻内容特征分为基于语言的(linguistic-based)和基于视觉的(visual-based)两类:
(1)基于语言的
假新闻是为了经济和政治目的故意创造出来的非客观的信息,所以通常包含主观的和有煽动性的语言,例如标题党。
语言学的特征可以捕获不同的写作风格和煽动性的标题,以检测出假新闻。可从新闻文章的不同层面抽取出这些特征,例如字符级别、单词级别、句子级别和文档级别。
为了捕获到假新闻和真新闻不同角度的特征,已有的工作同时利用普通的语言学特征和特定领域的语言学特征。
普通的语言学特征常用于表示文档以用于不同任务下的自然语言处理,这类语言学特征有:
1)词典特征:包括字符级别的和单词级别的,例如总单词、每个单词的字符、词频和唯一的单词;
2)句法特征:包括句子级别的特征,例如虚词(function words)和短语的频率,或者标点和POS(part-of-speech)标签。
特定领域的语言学特征通常和新闻领域相对齐,例如引证的单词、外部链接、图的数量和图的平均长度等等。此外,谎言检测的特征也可以从写作风格中捕获到是否有欺骗的信息,以用于假新闻的检测。
(2)基于视觉的
视觉信息对于假新闻的传播很重要。使用分类模型可以基于不同的用户级别、推文级别和手工选取的特征来识别出虚假的图像。
视觉特征包括清晰度分值、一致性分值、相似度分布直方图、多样性分值和聚类分值。统计学特征包括计数, image ratio, multi-image ratio, hot image ratio, long image ratio等等。
4.2.2 社交上下文特征
社交行为表示了新闻随着时间的扩散,为推断该新闻的真实性提供了有意义的辅助信息。目前几乎没有论文使用社交上下文特征进行假新闻的检测,本文给出在相似的研究领域(例如谣言真实性识别)使用到的类似的特征。本文主要考虑三个角度:用户、生成的帖子和网络。
(1)基于用户的
正如第 3.3节所述,假新闻很有可能是由非人类的账号创造并传播的。因此,使用基于用户的特征(用户在社交网络上的社交行为)捕获用户的信息和特点有助于假新闻的检测。
这些特征可以分为不同的级别:个人级别和群组级别。
1)个人级别的特征:例如用户注册年龄,关注的人数和粉丝数,发布的帖子数等等;
2)群组级别的特征:和新闻有关的一组用户整体的特征。前提是用户根据特点形成了不同的社区,并且可以使用群组级别的特征进行描述。常用的特征来自于聚合个体级别的特征,例如认证用户的比例、用户的平均粉丝数等。
(2)基于帖子的
用户通过社交媒体上的帖子来表达出他们对于假新闻的情绪和观点,例如怀疑观点、有煽动性的反应等。因此,抽取出基于帖子的特征有助于假新闻的检测。
基于帖子的特征聚焦于识别有用的信息,从相关帖子的多样的角度推断出新闻的真实性。这些特征可分为:帖子级别、群组级别和时序级别。
1)帖子级别的特征
之前提到的基于语言学的特征和一些针对新闻内容的嵌入方法也可以用于帖子的特征。
也有一些帖子独有的特征,例如立场、主题和公信力。
- 立场特征:用户对新闻的立场,例如支持、否认;
- 主题特征:可使用主题模型(eg. LDA)进行抽取;
- 公信力特征:帖子的可信度
2)群组级别的特征
使用群体智慧从所有的和特定新闻文章相关的帖子中聚合得到特征信息。例如,公信力打分的均值可作为群组级别的公信力分值。
3)时序级别的特征
考虑时序变化的帖子级别的特征值。使用无监督的嵌入方法,例如RNN可以捕获到帖子随时间的变化。
(3)基于网络的
社交网络上的用户根据兴趣、主题和关系形成了不同的网络。根据之前提到的回音壁效应,抽取出基于网络的特征也有助于假新闻检测。
可以构建出不同类型的网络:
1)立场网络:节点表示所有和某一新闻相关的帖子,边表示这些帖子表达的立场间的相似度;
2)共现网络:基于用户行为构建,计数用户是否发布了和同一新闻相关的帖子;
3)交友网络:表示发布了相关帖子的用户间的关注和被关注信息。
4)扩散网络:是交友网络的扩展,记录了新闻的传播轨迹,节点表示用户,边表示他们之间的信息扩散路径。也就是说,用户 u i , u j u_i, u_j ui,uj若满足这两个条件: u j u_j uj关注了 u i u_i ui且 u j u_j uj在 u i u_i ui之后发布了和给定新闻有关的帖子,则 u i , u j u_i, u_j ui,uj间存在扩散路径。
当构建好了这些网络后,就可以应用现有的网络度量作为特征表示。例如,度和聚类系数可用于表示扩散网络和交友网络。也有一些方法使用SVD或网络传播算法得到隐层的节点嵌入特征。
4.3 模型的构建
上一节介绍了从新闻文本和社交上下文抽取用于假新闻检测的特征。本节将讨论模型构建过程的细节。我们将已有的模型基于他们主要的输入源,分类为:新闻内容的模型和社交上下文模型。
4.3.1 新闻内容模型(news content models)
本节介绍新闻内容模型,主要依赖于新闻内容特征和现存的事实源来对假新闻分类。分为两类:基于知识的和基于风格的。
(1)基于知识的
基于知识的方法旨在利用外部资源对新闻内容中提出的主张进行事实核查。目标是给某一主张分配一个真实值打分。
现有的事实核查方法可以分类为:面向专家的、面向众包的和面向计算的。
1)面向专家的事实核查:依赖于领域专家对相关数据和文档的分析,以判断主张的可信度。但这一方法需要专家知识并且耗时,不具有高效性和高可扩展性。
2)面向众包的事实核查:利用到了群体智慧。让正常人对新闻内容进行标注,然后聚合这些标注得到对新闻可信度的整体评估。
3)面向计算的事实核查:目的是提供一个自动可扩展的系统对真实和虚假的主张进行分类。先前的面向计算的事实核查方法尝试解决两个主要问题:1、识别值得检查的助长;2、辨别事实主张的真实性。针对特定主张的事实核查很大程度上依赖于外部资源来确定某一主张的真实性。例如使用知识图谱(KG)来检查新闻内容中出现的助长是否是KG中已存在的事实。
(2)基于风格的
基于风格的方法是通过捕获新闻内容写作风格中的操纵者,从而实现虚假新闻的检测。有两类基于风格的典型的方法:面向欺骗的、面向客观的。
1)面向欺骗的:从新闻内容中捕获到欺骗性的陈述或主张。最近,一些NLP模型从深层句法、修辞结构两个方面来识别欺诈信息。也有深层网络模型方法应用到了CNN对假新闻的可信度进行分类。
2)面向客观的:捕获到表明新闻内容客观性降低的风格信号,例如党派的风格(hyperpartisan styles)和黄色新闻(yellow-journalism)。基于语言学的特征可用于检测党派相关的文章。黄色新闻指的是没有经过认真调研的新闻,仅依赖于标题(eg. 标题党),倾向于夸张、煽动和引起恐慌。
4.3.2 社交上下文模型
社交媒体为研究人员提供了附加的知识作为增强新闻内容模型的补充。社交上下文模型(social context models)包括分析相关的用户社交行为,从多样的角度捕获这些辅助信息。我们将现有的社交上下文建模方法分成两大类:1)基于立场的;2)基于传播的。
注意,目前几乎没有什么假新闻检测方法使用社交上下文模型,因此本文引入了使用社交媒体的用于谣言检测的相似的方法,这些方法有应用到假新闻检测任务上的潜力。
(1)基于立场的
利用了用户对于相关帖子内容的观点,以推断出原始新闻文章的可信度。用户帖子的立场可以表示为明确的和含蓄的。
明确的立场是较为直接的表达,例如点赞和点踩。含蓄的立场可以自动地从社交媒体帖子中进行抽取,判断用户对于目标实体、事件或看法是支持、中立还是反对。
已有的立场分类模型主要依赖于人工设计的语言学特征或单一帖子的嵌入特征来进行立场的预测。主题模型,例如LDA,可以从主题中学习得到隐藏的立场的信息。使用这些方法,我们可以基于相关帖子的立场值推断出新闻的可信度。
Tacchini等人使用“like”立场信息,构建了用户和Facebook帖子组成的二部图;并基于这一网络提出半监督的概率模型以检测出帖子是恶作剧的可能性。Jin等人使用主题模型学习得到隐藏的观点,并进一步利用这些观点学习得到相关帖子和新闻内容的可信度。
(2)基于传播的
基本假设是新闻事件的可信度和相关社交媒体帖子的可信度高度相关。
传播过程可以建立成同质的和异质的可信度网络。同质的可信度网络由单一类型的实体组成,例如帖子或事件。异质的可信度网络包括不同类型的实体,例如帖子、子事件和事件。
Gupta等人提出了类似PageRank的可信度传播算法,在一个三层的user-tweet-event异质信息网络上,编码用户的可信度和推文的含义。Jin等人提出包含新闻角度的三层的层次网络,利用图优化框架来推断出事件的可信度。最近,也有学者在构建推文间异质的可信度网络时引入了对立的关系,以指导对其可信度的评估过程。
5 评价检测效果
本节介绍如何评估假新闻检测算法的效果。将介绍此任务的可用数据集以及评估度量方法。
5.1 数据集
一些公开的数据集如下所示:
(1)BuzzFeedNews
2016年美国大选期间,发布在Facebook上的来自9家机构的新闻。有1627个文章,其中826个是主流的,356个是左派的,545个是右派的。
https://github.com/BuzzFeedNews/2016-10-facebookfact-check/tree/master/data
(2)LIAR
从事实核查网站PolitiFact上收集的,包括12836个人工标注的短文本。这些文本来自多样的语境,例如新闻稿、电视采访、电台采访、竞选演说等。新闻的可信度分为:pants-fire, false, barely-true, half-true, mostly true, true。
(3)BS Detector
使用用于检测新闻真实性的浏览器扩展BS detector收集得到的数据。
(4)CREDBANK
大规模的众包数据集,大约有60 million的推文,覆盖范围是从2015年10月开始的96天。
表 1比较了这些数据集,并标出了可以从每个数据集中抽取出来的特征。可以看出,没有现存的数据集可以提供所有的特征。
而且这些数据集有特定的限制,将其应用到假新闻检测是有挑战的:
(1)BuzzFeedNews只包含了每篇新闻的标题和文本,并且新闻文章的来源有限。
(2)LIAR包含了很短的文本陈述,而不是完整的新闻内容。而且这些陈述来自于多样的演讲者,而不是新闻发布者,可能含有不是假新闻的陈述。
(3)BS Detector中的数据是使用新闻核查工具得到的。由于标签不是由人类专家提供的,因此使用这些数据训练得到的模型学习到的是BS Detector的参数,而不是专家标注的ground truth假新闻的参数。
(4)CREDBANK是用于推文可信度评估的,因此该数据集中的推文不是针对特定新闻文章的真实的社交行为。
为了解决现存的假新闻检测数据集的问题,作者收集了针对社交媒体上假新闻检测的数据集FakeNewsNet,包含所有提到的新闻内容和社交上下文特征,并且有ground truth假新闻标签。
5.2 评估度量
绝大多数现有的方法将假新闻检测问题看成是分类问题,目的是预测一个新闻文章是否是假的:
- TP:预测文章是假的,并且预测对了;
- TN:预测文章是真的,并且预测对了;
- FN:预测文章是真的,但是预测错了;
- FP:预测文章是假的,但是预测错了。
(1)定义以下度量,值越高越好:
(2)ROC曲线(Receiver Operating Characteristics)通过权衡FPR(False Positive Rate)和TPR(True Positive Rate)值,比较了分类器的性能。FPR值作为x轴,TPR值作为y轴。TPR和FPR定义如下:
(3)基于ROC曲线,可以计算出AUC值(Area Under the Curve)。AUC值衡量了分类器将假新闻排在真新闻前面的整体表现。AUC定义如下:
其中 r i r_i ri是对第 i t h i_{th} ith个新闻文章排名, n 0 ( n 1 ) n_0(n_1) n0(n1)是假(真)新闻的数量。AUC比accuracy更具有统计一致性和辨别性,它常用于不均衡的分类问题。例如在假新闻分类中,假新闻和真新闻的分布是不均衡的。
6 相关领域
本节进一步讨论了和假新闻检测有关的研究领域。目的是通过简要地解释任务目标并突出流行的方法,指出这些领域和假新闻检测的不同之处。
6.1 谣言分类
谣言指的是一条在传播时其真实性尚未得到证实的消息。谣言的作用是让一个模棱两可的情况变得说得通(make sense),而其真实值可能是真的、假的或未证实的。
先前的用于谣言分析的方法聚焦于4个子任务:谣言检测、谣言追踪、立场分类和可信度分类。
(1)谣言检测的目的是将一条信息分类成是或不是谣言;
(2)谣言追踪的目的是收集并过滤讨论特定谣言的帖子;
(3)谣言立场分类是识别出每个相关帖子的真实性;真实性分类试图预测出谣言的真实值;
(4)谣言可信度分类是和假新闻检测最相关的任务,这一任务高度依赖于其他子任务,需要从相关的帖子中抽取出立场和观点。这些帖子可看成是决定谣言真实性的重要的传感器。
区别:
谣言包括长期的,例如阴谋论,也包括短期的。假新闻指的是和公共新闻事件相关的且已被证实为假的信息。
6.2 事实发现
事实发现是从多个有冲突的来源中检测出事实。事实发现方法并不直接探究事实主张,而是依靠一组记录了对象属性的矛盾的资料来源,从而确定真实值。
事实发现的目的是同时确定来源的可信度和客观的真实性。
在许多场景下,假新闻检测都可以从事实发现方法中获益:
(1)不同新闻来源的可行度可用于推断出其所发表的新闻的真实性;
(2)相关的社交媒体的帖子可以建模成社交反应来源(social reponse sources),以更好地判断主张的可信度。
在社交媒体场景下,要将事实发现应用到假新闻检测中,还需要考虑一些问题:
(1)绝大多数事实发现的方法聚焦于处理SPO(Subject-Predicate-Object)元组形式的有结构的输入,然而社交媒体数据是高度无结构的并且带有噪声;
(2)当假新闻是刚刚发布的并且只有很少的新闻机构发布了这一新闻时,事实发现方法不能很好的应用于假新闻的检测,因为此时没有足够多的和该假新闻相关的社交媒体帖子来作为附加源。
6.3 标题党检测
标题党指的是引人注目的让人好奇的标题。
标题党文章的正文通常有一定的组织形式并且和标题相似度不高。研究者通过识别标题和新闻内容的不一致性,可以检测出假新闻。尽管不是所有的假新闻都包含标题党,特定的标题党可视为重要的指示器,并且可利用多样的特征帮助检测出假新闻。
6.4 机器人检测(Spammer and Bot Detection)
Spammer检测的目的是捕获相互配合发起多种攻击的有害用户。现有的方法主要依赖于从用户行为和社交网络信息中抽取出特征。
此外,social bots也加速了假信息的传播,因为它们自动地转发一些推文而不验证其真实性。社交机器人带来的主要挑战是,它们会给人这一信息非常受欢迎并且已被很多人认可的假象,然后利用了回音壁效应,对假新闻的传播起到积极作用。先前的用于机器人检测的方法是基于社交网络信息的。
spammer和social bot检测中对于有害中户的检测可以用于假新闻检测中。
7 开放的问题和未来的研究方向
本节将介绍假新闻检测领域的开放问题和未来的研究方向。如图 2所示,作者将研究方向分为了4类:面向数据的、面向特征的、面向模型的和面向应用的。
(1)面向数据的
面向数据的假新闻检测研究聚焦于不同类别的数据特征,例如:数据集、时间的和心理学的。
1)从数据集的角度,我们上面提到过还没有包括了可抽取出所有相关特征的benchmark dataset。因此,研究方向之一就是构建一个可解释的大型的假新闻benchmark dataset。
2)从时间的角度来看,社交媒体上的假新闻传播呈现出与真实新闻不同的独特的时间模式。因此,另一个有意义的研究方向就是进行假新闻的早期检测,目的是在假新闻的传播过程中给出早期的警告信号。
3)从心理学的角度来看,心理学文献对假新闻从不同的方面进行了定性的探讨,但是证实这些心理学因素的定量的研究还很有限。例如,如何捕获回音壁效用,如何利用这一模式以用于社交媒体上的假新闻检测。
4)此外,从新闻数据中进行意图检测也是有前景的研究方向。现有的大多数假新闻研究仅聚焦于检测真实性,而忽视了假新闻的意图。
(2)面向特征的
面向特征的假新闻研究目的是从多个数据来源中确定可用于假新闻检测的有效的特征。正如我们在文中所说的那样,有两个主要的数据源:新闻内容和社交上下文。
1)从新闻内容的角度来看,我们介绍了基于语言学和基于视觉的技术来从文本信息中抽取出特征。
值得注意的是,语言学特征已在许多NLP任务中得到了广泛应用,例如文本分类和聚类、欺诈检测、作者识别等,但假新闻的特性还没有被完全理解。
视觉特征已被证明有助于假新闻的检测,但是很少有研究利用有效的视觉特征。而且最近有一些研究可以操纵视频片段,合成高质量的视频。因此,区分真假视觉内容变得越来越有挑战性,需要更高级的基于视觉的特征以进行假新闻检测的研究。
2)从社交上下文(social context)的角度来看,我们介绍了基于用户的、基于帖子的和基于网络的特征。
现有的基于用户的特征主要聚焦于用户的一般信息(profiles),而不是区别不同类型的账户并抽取特定用户的特征。
基于帖子的特征可以使用其他的方法,例如CNN,来更好地捕获人们对于假新闻的观点和反应。
基于网络的特征被提取来表示不同类型的网络是如何构造的。需要在这一基础工作上进行扩展:
- 根据相关用户和帖子之间的不同方面的关系,如何构建其他网络;
- 其他更高级的网络表示方法,例如网络嵌入。
(3)面向模型的
已有的大多数方法聚焦于抽取多样的特征,并将这些特征合并到有监督的分类模型中,例如朴素贝叶斯、决策树、logistic回归、KNN和SVM,然后选取分类效果最好的分类器。
有一些研究构建了更复杂更有效的模型以更好地利用抽取出来的特征,例如聚合方法、概率方法、集成方法、映射方法。
我们认为有前景的研究方向如下:
1)聚合方法中对不同的特征表示进行加权,并优化特征的权重;
2)假新闻可能将真实陈述和虚假的主张进行混合,因此使用概率模型而不是二分类对假新闻进行分类可能会更好;
3)考虑单一特征会使模型在性能上受限。集成的方法可以结合多个弱分类器以学习到一个强分类器,比单独使用任何一个分类器的效果都要好。可对新闻内容和社交上下文特征进行集成建模。
4)假新闻内容和社交上下文信息在原始的特征空间中可能是有噪声的。映射的方法可以学习到原始特征空间间(例如新闻内容特征和社交上下文特征)的映射函数,并且隐层的特征空间也许更有助于分类。
5)此外,大多数方法都是有监督的,需要预先标注好的假新闻数据集来训练模型。未来可以考虑半监督的方法或无监督的方法。
(4)面向应用的
1)假新闻扩散
假新闻扩散描述了假新闻在社交媒体网站上的传播模式和传播路径的特征。有一些研究表明真实的信息和假信息在社交网络间传播时的模式不同。
同样的,社交媒体上假新闻的传播也有其自身的特点,例如社会维度、生命周期、传播者身份等,需要进一步研究。
1、社会维度:指的是不同社区间社交关联的若依赖性和异质性。不同的社会维度在政治、教育、体育等话题下的假新闻传播中为什么以及如何发挥作用的,值得研究。
2、生命周期:由于人们的注意力和反应是随时间变化的,假新闻的传播郭晨也有不同的阶段和生命周期。研究假新闻的生命周期可以更深刻地理解某一故事是如何从普通的公共话语中传播开来的。追踪假新闻的生命周期需要记录假新闻扩散的关键轨迹,也需要对特定的假新闻报道过程进行进一步调查,例如基于图的模型和基于进化(evolution-based)的模型。
3、传播者身份:识别关键的传播者也是十分重要的。可以根据立场和真实性识别出关键的传播者。
从立场角度来说,传播者可能是对假新闻呈反对观点的澄清者,也可能是支持假新闻并劝说别人也相信的劝说者。
从真实性角度来说,传播者可能是人类、bot或cyborg。需要进一步的研究以更好地检测出用于传播假新闻的恶意账号。
2)假新闻的介入(intervention)
目的是通过采取主动介入的方法,以最小化假新闻的传播范围,从而减小假新闻的影响。
主动的假新闻介入方法有:
1、移除恶意账户
2、用真实的新闻让用户免疫,改变可能已经被假新闻影响的用户的认知。已有研究使用基于内容的介入和基于网络的介入方法,用于假信息的介入。之前提到的传播者检测方法也可用于特定用户的检测,例如找到说服者使其停止假新闻的传播,找到澄清者最大化对应的真实新闻的影响范围。
8 总结
本文通过对现有的文献进行回顾,对假新闻的检测问题进行了探讨,分为两个阶段:表征和检测。
在表征阶段,我们提出了假新闻在传统媒体和社交媒体上的基本的概念以及规则。
在检测阶段,我们从数据挖掘的角度回顾了已有的假新闻检测方法,包括特征的抽取和模型的构建。
我们还进一步讨论了假新闻检测领域的数据集、验证度量和未来有意义的研究方向,并将此领域扩展到了其他的应用中。
-
见过了这位存储老兵,让我对中国的软件定义存储有了新认识
2020-07-09 09:28:58在2020年5月底最后几天里,正好碰着他出差北京公干,我们就约见聊了一下中国的软件定义存储(SDS)以及杉岩数据的发展情况。同时,我对杉岩数据在现在这样特别的环境下,最近还获得了新一轮的融资特别好奇。 最新...题记:
陈坚,我们很多年前就加了微信,一直无缘见面交流。
在2020年5月底最后几天里,正好碰着他出差北京公干,我们就约见聊了一下中国的软件定义存储(SDS)以及杉岩数据的发展情况。同时,我对杉岩数据在现在这样特别的环境下,最近还获得了新一轮的融资特别好奇。
最新官方消息:近日,杉岩数据喜获1.5亿元B+轮融资,本轮融资由大型央企中远海运发展领投,襄禾资本、无锡金投跟投。
与此同时,近日杉岩数据中标某省数据中心云存储资源池的2EB容量级分布式存储特大单,由20万块磁盘打造的超级海量存储集群。
在我看来,创立于2014年的深圳,杉岩数据有着与众不同的地方。不仅仅在于其创始人、CEO陈坚有着华为14年的重要经历,同时也有着10年以上的存储专家经验。而且更为关键的在于,作为一个存储领域的技术创新型公司,从创立之初就规避了如华为存储等传统企业级存储大厂的历史包袱。
从他的视觉来看,做软件定义存储不能只是将眼光聚焦在存储,关键的聚焦应在“数据”。
当然,对于杉岩数据来说,并非想要颠覆中国的软件定义存储格局,而是在努力将数据存储厂商的发展价值更靠近用户,贴近数据。
从存储出发,为数据构建智能的管理与价值平台,这不仅是杉岩数据当初的使命,也是其当前发展的根本。
01
剑走偏锋,更实在的SDS定位
谈到杉岩数据的英文名,也十分特别,叫SandStone。
SandStone是一种沙岩, 由沙粒经过多年不断沉积重新排列而成。
SandStone生动地诠释了“分布式架构”的形成,正是这一粒粒细小的沙子用分布式的方式融合在一起, 才造就了SandStone的坚硬与美丽。
杉岩数据创始人、CEO陈坚的这句话,引发了我对SandStone公司发展的更多思考。
- 杉岩数据创始人、CEO 陈坚
杉岩数据的英文名缩写就是SandStone,在竞争对手林立的软件定义存储领域,杉岩数据可以脱颖而出,并在新冠状病毒疫情刚过之时,就迎来了资本市场的肯定,获得非常重要的新一轮融资。
一方面,可以彰显出资本市场对于数据存储领域的进一步重视,资本市场对于数据存储领域的兴趣当然也离不开新基建的风口。面对新基建大趋势下,数据存储必然成为助推云计算、5G、大数据、物联网等持续发展重要的支撑之一,在数据存储领域的投资也将带来非常有想象空间的回报。
另一方面,软件定义存储属于数据存储领域重要的一支力量,并在云计算与大数据风起云涌的数字经济时代,获得了高速的发展。作为中国非常早期投入软件定义存储领域的厂商之一,杉岩数据积累了足够深厚的技术、产品、服务与方案力量,从而也赢得了市场分析机构的肯定与行业用户的认可。
随着虚拟化和云在企业中的广泛应用,软件定义基础设施也随之兴起,软件定义存储便是趋势之一。剥离特定的硬件设 备和硬件架构,将存储管理服务从存储基础架构里剥离出来,为企业提供了选择的便捷性和灵活性,并满足弹性增减和和快速部署。这正是软件定义存储的优势所在,也是杉岩数据深耕的领域和方向。
传统存储领域综合性的供应商之间的竞争格局早已形成,即便选择进入这个领域,也是一片红海,况且需要前期的资本投入都以10亿元单位为计,同时在全球外部存储系统市场连年出现下滑趋势的萎缩情况下,对于任何一个想在数据存储领域有所作为的创新企业来说,这条路充满了高风险。
相对来说,从实际的行业用户应用现状和技术发展思路来看,软件定义存储支持“数据存储+管理应用”的创新架构,加上融入人工智能的基因,从而,杉岩数据就走向了一条智能存储的软件定义之路。更进一步分析来说,杉岩数据的定位,就是立足于存储的数据管理厂商。可谓剑走偏锋,杉岩数据为软件定义存储寻求了一条更实在的发展途径。
02
大势已来,SDS风生水起
诚然,一切都从软件定义的角度出发,迅速切入企业行业用户应用,让杉岩数据快速找到了发展的真正基调。
软件定义存储的发展,也是大势所趋。
一方面,新基建发展带来了对于数据存储的新需求。
2020年4月20日,国家发展改革委进一步明确了新基建的核心定义与内容,包括了信息基础设施、融合基础设施、创新基础设施三个重要的方面。蕴藏上万亿元投资的新基建,其下一步的发展意义深远。
其中,来自5G、物联网、人工智能、数据中心等信息基础设施的进步,来自智能交通基础设施、智慧能源基础设施等融合基础设施的创新,根本的发展都离不开数据,而对于这些信息基础设施与融合基础设施的发展离不开数据存储的强大基石。目前来看,软件定义存储以其更强的开放性、灵活性、扩展性以及性能表现,成为这个强大基石的适合之选。
另一方面,软件定义存储行业的发展,已经初具规模,发展前景也一直备受业界关注。
来自国际分析机构IDC的预测,未来五年,中国软件定义市场将以10.1%的复合年增长率保持高速增长,到2024年,其市场容量将接近24.6亿美元,其中适用于事务型数据库的块存储存储子市场也将保持快速增长,在2024年达到接近5亿美元的市场规模。面向海量非结构化数据处理的对象存储细分市场仍保持较高的年复合增长率,达到14.5%。
全球存储观察分析指出,在中国的软件定义存储领域中,已经聚集了华为、新华三、曙光、浪潮、Dell EMC、Hitachi Vantara等国内外综合存储厂商不下50家,其中也有一大批像杉岩数据等这样的软件定义存储的技术创新公司。不管是针对块、文件还是对象的存储类型,不同数据存储厂商有着不同的专注与积累。相对来说,针对块存储的软件定义存储创新,面对的系统可靠性、稳定性与性能的挑战相对要高一些。即便如此,块存储领域的SDS厂商依然可以获得长足的发展,每年符合增长率平均超过10%。
顺应软件定义存储的行业与市场发展大势,作为中国的软件定义存储解决方案提供商之一,杉岩数据以新一代智能分布式存储技术为核心,从块存储领域出发,逐渐覆盖到了对象存储,从而形成了丰富的软件定义存储产品组合。立足软件定义存储的数据生命周期管理,目前杉岩数据已经在超过10个行业领域的500多客户中实现了大规模商用部署,总交付容量已经超过2500PB。
早在2018年,IDC发布的《China SDS Block Level Market Overview,2018》报告中显示,在对象存储市场,杉岩数据以19.9%的市场份额位居第2,在块存储市场,杉岩数据以10.5%的市场份额位居第4。
截至2019年H1,杉岩数据在IDC发布的《2019H1 China SDS Market Overview》报告中,对象存储排名第3,块存储排名第4,整体排名第5位。
不仅如此,在支持SDS行业发展方面,杉岩数据作为全国信息技术标准化技术委员会云计算标准工作组成员,参与了存储相关国标的制定工作。
可见,从行业市场发展情况来看,软件定义存储,数据存储行业的大趋势早已成定势。
03
深入行业每一步,聚焦存储本质
从本质上来说,无论是块存储还是对象存储,作为SDS厂商需要聚焦的关键依然还是数据,以及针对数据完整生命周期的考量。
软件定义存储提供商在追求简化基础架构、提高硬件灵活性、可扩展性的同时要提高服务能力。来自IDC的分析表明,硬件抽象化本身并不能推动软件定义存储的落地和应用,从用户需求和IT环境出发,降低部署的复杂性,为用户提高IT生产力应是软件定义存储供应商的最终目标。
为此,在陈坚看来,杉岩数据的软件定义存储在强调硬件抽象化的同时,更强调场景化与行业定制化。其间,必然需要更丰富的行业落地能力与技术服务能力。
目前来看,杉岩数据已经在私有云、混合云、金融科技、智慧政务、智慧医疗、智慧交通、智慧安防等20多个不同类型的应用场景中得到了切实应用,包括了如广发证券、PICC、华润银行、中国广核集团、中国南方电网、中国移动物联网、武汉大学、北京大学深圳医院、天威视讯、优必选等500余家重点行业用户。
不过,针对SDS的场景化定位,杉岩数据更显自信。因为其每一步发展,从用户需求和IT环境出发,都聚焦存储的本质。以数据为中心,支撑用户数据生命周期管理,在人工智能、大数据、物联网等领域,为企业用户提供数据存储的价值回报,从而可以形成杉岩数据独特的技术服务竞争力。
以金融行业的非结构化数据存储与管理场景为例,广发证券的非结构化数据存储与管理方案成功落地为例。
其文件数据从2017年的1亿文件,增长到近10亿,对券商信息系统带来了新挑战,采用了杉岩海量对象存储(SandStone MOS)后,借助哈希计算替代索引查找访问文件的先进技术,同时采用创新的文件合并方式,优化了小文件的访问性能。广发证券的实现了更好的数据存储性能,扩容也简单。
此外,杉岩数据的统一存储平台,消除信息孤岛,SandStoneMOS内置检索功能,实现非结构化数据的 统一存储与管理。
更为关键的是在结合AI训练后,实现了广发证券的数据存储、 保护、发现、AI训练一体化,质检效率得到明显提升。
可见,对于存储部分的基础架构设计,各个厂商都有大同小异的块存储、对象存储等方案,但是要涉足用户应用端的优化,聚焦数据生命周期的智能管理,这部分针对不同行业需要一定的定制化。杉岩数据从一开始就专注针对应用场景的存储性能与功能优化,这明显可以聚焦行业用户更现实的需求,贴近用户数据价值去构建软件定义存储体系,更能体现数据存储的本质。
将这些不同行业场景化的软件定义存储,统一梳理,虽然行业众多用户落地众多,但是于是不难发现杉岩数据不外乎聚焦几个主要的行业场景领域:
其一,针对数据的全生命周期的智能管理。
杉岩数据的软件定义存储方案,更为聚焦数据的变化,从数据管理层出发,向上智能感知业务应用。简单地说,杉岩数据实现了基于存储的数据中台的概念。但这个数据中台不直接碰具体数据,而是围绕针对应用场景的不同提供更高效的存储支撑,更高效的数据管理与价值工具支撑。比如杉岩数据的智能存储根据数据访问频率以及对数据内容和上层应用的感知,通过策略自动化管理“热、温、冷”数据的流动,解放人力简化运维。特别是在医院的PACS影像系统中,可以根据影像数据的存放周期,实现不同介质的存放管理,实现数据存储整体效益与效能的最大化。
北京大学深圳医院PACS影像系统采用了杉岩数据的数据存储方案后,北京大学深圳医院信息科主任卢红介绍指出,杉岩数据将分散在各科室的影像文件放在SandStone MOS平台统一存储与管理,便于数据共享与运维监控。通过杉岩的热温冷全生命周期智能管理,对数据分级存储,满足了法规遵从要求。不仅极大地提高 了北京大学深圳医院的看诊效率,也提升了患者的就诊体验,加速了北京大学深圳医院的智慧医疗建设。
其二,针对总部与分支机构之间的数据流动,实现数据智能集中和分发。
杉岩数据认为,云边协同的数据管理能力对存储系统支撑总部与分支机构间的数据汇聚和分发至关重要。
实际的需求非常明显,跨地域的机构内数据访问,需要在较低的网络带宽条件下实现较高的读写性能、跨区域的统一文件视图和异地容灾能力。
在这样的场景应用需求下,杉岩数据基于存储层面实现跨区域集群数据的统一命名空间和数据流动。一方面,通过双活架构提供数据灾难恢复能力,一方面,通过CDN实现总部中心节点的数据分发,因而分支机构的数据可以就近写入,实现总部的数据自动汇聚,并借助跨区域的数据调度,简化应用层数据共享的复杂性。
实际应用中,针对集团性企业的分支机构众多,其数据不仅需要集中同时也需要实现高效的分发。比如:中国广核集团由核心企业中国广核集团有限公司及40多家主要成员公司组成,遍布各地的多分支机构部署,对于数据存储方面的支撑有着迫切的需求。中国广核集团信息技术中心架构师黄福同分析指出,通过实施杉岩海量对象存储系统,建立了中国广核集团统一的高性能海量电子文件存储平台,为前端包括文档系统在内的各种业务系统提供了标准化电子文件存取服务,原先分散存放的电子文件,具备了集约化管理的条件, 提升了安全性和可管理性。
其三,针对混合云的存储,实现更高效的统一管理。
混合云部署已经在企业用户的现有IT部署或未来计划中占据了重要的份量,出于安全和成本的考量,企业往往将敏捷业务部署在公有云,同时将重要数据存放在私有云,以兼顾业务灵活和数据安全。
公有云+私有云的混合云部署方式,需要更高效的软件定义存储。在这个方面,杉岩数据一直十分拥抱公有云的发展趋势,契合用户实际的需求。
作为国内第一家支持阿里云OSS云存储服务的企业存储厂商,杉岩数据更懂得企业用户对于混合云存储部署方案的灵活需求,实现其“应用敏捷、数据安全、成本优化”的混合云存储落地。
其四,针对存储资源利旧与统一管理,实现传统存储和软件定义存储更有效的管理。
现实情况非常明确,对于企业现有传统存储与软件定义存储之间必然需要构建一个统一管理的交换平台,这样不仅可以通过对异构存储的统一管理,整合现有设备资源可有效保护既有投资,也可以实现企业数据存储的统一调度。
目前来看,杉岩数据已经支持对文件存储设备的纳管,对块存储设备的纳管也将根据客户和合作伙伴的需求陆续提供。
可见,从这四大应用场景来看,软件定义存储发展的每一步都需要聚焦存储本质,围绕数据的价值来展开创新,这就是杉岩数据可以赢得更多行业认同,获得更多用户认可的根本。
04
SDS生态构建,依然以数据为本
基于存储的智能数据管理,每一步都聚焦存储的本质。杉岩数据目前已经形成了四条重要的软件定义存储产品线,包括了:SandStone MOS(对象存储)、SandStone USP(统一存储)、SandStone HyperCube(超融合一体机)、SandStone HuaYan(安全存储一体机)。
产品线的不同,只是解决用户实际应用场景的需求不同。不过,一旦聚焦用户应用场景的数据变化,匹配更贴身的软件定义存储方案,这样的思路最终让杉岩数据的产品策略实现了一定的分层,主要聚焦硬件基础架构层、自身的软件定义存储层和应用软件层。
为此,杉岩数据的SDS生态构建依然以数据为本,实现生态分层。
最下一层是开放的基础架构层,目前杉岩数据与业界多家服务器厂商、芯片厂商、网络厂商都有合作,包括了英特尔、飞腾、华为、华为鲲鹏、曙光、宝德、联想、易华录、浪潮、长城、紫晶存储、Mellanox等。
中间层为契合杉岩数据SDS方案的云生态与基础软件合作伙伴,包括了阿里云、腾讯云、VMware、灵雀云、EASYSTACK、RANCHER、CITRIX、金山云、航天云网、ZStack、VERITAS、中标麒麟、银河麒麟等。
最上面一层就是有着行业发展特性的应用软件类生态伙伴,包括了科大讯飞、中标软件、东软、中科软、卫宁软件、信雅达、科来软件、远光软件等。
由此而言,对于杉岩数据来说,分层的策略不仅仅针对企业用户数据存储的智能定义,同时对于产品、行业、生态的赋能上,杉岩数据所提倡的依然还是分层结合,让每一个层面都可以得到价值发挥。
特别针对当前信创行业发展的特点,这是信息化应用创新的简称,信息化应用创新发展是目前的一项国家重要的举措,也算是当今情况下经济发展的新动力。全球存储观察分析认为,杉岩数据的安全存储一体机SandStone HuaYan是非常契合信创产业发展的趋势,况且数据存储的创新,对数据安全也有重大意义。
在信创领域的安全存储一体机发展上,杉岩数据与飞腾、华为、曙光、华为鲲鹏、中标麒麟、银河麒麟等携手合作,基于信创发展的硬件与软件生态,打造国产化一体机,具备从核心器件到存储系统软件的完全自主知识产权,围绕国产信息系统进行了广 泛兼容性验证和测试,支持国产主流文档管理软件和云计算管理平台,可以满足党政国企等核心部门的高性能存储需求。
可见,能够形成自己比较成熟的四大软件定义的数据存储产品线,并且在金融、政府、能源、教育等多个行业有着长期的广泛应用落地,必然离不开杉岩数据的过硬的技术积累和广泛开放的生态合作体系。
全球存储观察分析指出,杉岩数据虽然在软件定义存储领域上取得了一定的成绩和发展,有着自己成熟的软件定义存储产品线和解决方案。但从本质上来说,杉岩数据依然属于一家数据存储领域的专业技术创新型公司,这就必然需要构建一个适合自己发展的生态体系。那么在软件定义存储的生态构建上,杉岩数据分层生态策略契合自身发展特点,也顺应了产业和行业发展趋势,具备可持续发展的生态优势。
05
技术+资本,杉岩数据未来更稳健
然而,对于任何一个技术创新性公司来说,资本力量的重要性并不亚于技术的力量。
IDC分析指出,无论是最终用户还是服务于市场的供应商,混合云多云战略、边缘计算和人工智能(AI)仍是未来几年投资的关键领域。
与此同时,匹配这些关键投资领域的数据存储与数据管理的方案,也就显得更有价值和发展前途。倘若只是围绕存储而做存储,走向硬件系统的存储阵列发展模式,这必然不是从华为存储体系中走出来的陈坚创立杉岩数据的初衷。
既然是创业创新,那么杉岩数据就必然要与华为存储等这样的企业级存储综合厂商采取差异化的竞合之道。
为此,从一开始,在技术与资本两个方面,杉岩数据创始人、CEO陈坚都非常重视。但是,对于资本力量的发挥,不能仅限于资本,如果在生态融合与丰富上,兼得资本的赋能,这样的资本力量对于技术创新性公司的发展,显得更为有现实意义。
当然,能够在2019年到2020年间获得新的融资支持,还能在新冠战疫期间迎来资本的给力,这不仅表明SDS有着较好的发展潜力,而且更能说明陈坚将存储的发展从一开始就立足于数据的重要性。不能为了存储而存储,而是一切从用户数据变化的需求出发,才可以让存储得以更好的发挥。
在融资方面,2016年杉岩数据获得上海天玑数据天使轮融资,上海天玑数据也是国内知名的超融合、大数据一体机等领域的先行者,在存储技术生态合作上,杉岩数据与上海天玑数据也有着长期的合作关系。
2017年杉岩数据获得顺为资本领投的A轮融资,2019年杉岩数据完成广发乾和领投、深圳市人才基金跟投的B轮融资。
2020年7月,随着2020年新一轮融资的公布,杉岩数据将围绕数据存储、数据管理、数据价值的客户价值模型,持续加大产品关键技术的研发投入、垂直领域的市场拓展、人才引入以及产业生态链建设,为用户的数字化转型提供全面赋能。
在全球存储观察看来,能够吸引资本方持续的融资,杉岩数据最具资本吸引力的地方主要集中在两个方面:
一是,技术出身的创始人与创始团队成员,对于数据存储技术趋势的准确把握。
二是,杉岩数据的公司定位,立足于存储,致力于企业数字化转型的数据生命周期管理与价值洞察。
对于像杉岩数据这样,一个既敢于在软件定义存储领域打技术硬仗,又敢于支撑企业用户应用场景的数据变化上下功夫,其未来开拓进取的触角要比众多传统企业级存储厂商要更靠近企业用户,靠近用户的实际应用。
杉岩数据走的这条数据存储之路,其路虽长,但其路却十分宽广。立足开放的生态,借助技术+资本的力量,会将让杉岩数据的未来走得更稳健。
(by Aming)
--------- END ---------
你
怎
么
看
?
欢迎文末评论补充!
文章来源:Aming,全球存储观察,著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。本文和作者回复仅代表个人观点,不构成任何投资建议。
都看到这里了,加个关注吧!
【阿明】:科技评论专栏作者、科技媒体从业22年、新闻评论年产出上百万字,用数据说话,带你看懂科技上市公司。
-
什么是“大数据新闻”? 大数据
2018-10-23 11:16:28很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习扣群:805127855,有大量干货(零基础以及... -
Python Django,模型,一对一、一对多、多对多模型类关系的定义。ForeignKey、ManyToManyField、...
2018-12-11 12:15:59一对多关系 models.ForeignKey() # 定义在多的类中。 多对多关系 models.ManyToManyField() # 定义在哪个类中都可以。 一对一关系 models.OneToOneField() # 定义在哪个类中都可以。 一对多关联: ... -
angular定义数组的三种方式
2019-06-20 11:47:56//方式1:定义数组 public arr=['1111','2222','33333']; //方式2: 推荐 public list:any[]=['我是第一个新闻',222222222222,'我是第三个新闻']; //方式3: public items:Array<string>=['我是第一个新闻'... -
【SQLAlchemy】第2节:模型类的定义与创建
2019-11-15 15:38:23定义Class类3.创建模型类(在数据库中生成这个User表)3.1创建连接引擎3.2创建(第1种方法:创建指定的模型类)3.3创建(第2种方法:创建所有继承Base类的模型类)4.完整代码总览 1.导包并创建Base类 from ... -
新闻个性化推荐系统
2021-07-10 23:24:39新闻个性化推荐系统一、绪论及背景1.1、绪论1.2、背景1.3、发展历史二、需求分析2.1、功能需求2.1.1、用户功能需求2.1.2、运营功能需求2.1.3、算法功能需求2.2、非功能需求2.2.1、性能需求2.2.2、准确性需求2.2.3、... -
Angular—定义TS属性、绑定TS属性
2020-02-11 12:15:04TS中的属性也叫数据,定义属性不是定义变量,不能用var关键字。 二、定义TS属性 属性修饰符 属性修饰符表示声明属性的几种方式。 public 共有属性, 默认, 可以在这个类里使用, 也可以在类外面使用 protected ... -
【MySQL】新闻发布系统数据库设计
2019-09-03 23:20:56新闻发布系统所要实现的功能具体包括:新闻信息添加、新闻信息修改、新闻信息删除、显示全部新闻信息、按类别显示新闻信息、按关键字查询新闻信息、按关键字进行站内查询。 本站为一个简单的新闻信息... -
Java开发新闻管理系统(前后端) 爬虫百度、新浪等新闻
2018-11-29 11:44:45ForFutureNews 新闻管理系统 项目演示地址:http://www.ganquanzhong.top [注]:文档下载:Reward、SCDN、FortureShare 1. 系统功能介绍: 1.1前言 当今社会是一个... -
知识图谱中的实体定义
2020-07-18 22:56:25在前一篇博文《Neo4j构建目标知识图谱》中提到知识图谱的构建中实体及关系的定义是个难点,在本篇中试图总结经验。 2.知识图谱是什么 知识图谱本质上是一种语义网络,用图的形式描述客观事物,这里的图指的是数据...