-
2018-12-24 12:05:49
一、参考文献
【1】柳瑞雪, 石长地, 孙众. 网络学习平台和移动学习平台协作学习效果比较研究——基于社会网络分析的视角[J]. 中国远程教育, 2016(11):43-52.
【2】常咏梅, 张雅雅, 金仙芝. 基于量化视角的STEM教育现状研究[J]. 中国电化教育, 2017(6):114-119.
【3】刘三, 石月凤, 刘智, et al. 网络环境下群体互动学习分析的应用研究——基于社会网络分析的视角[J]. 中国电化教育, 2017(2):5-12.
【4】梁云真, 赵呈领, 阮玉娇, et al. 网络学习空间中交互行为的实证研究*--基于社会网络分析的视角[J]. 中国电化教育, 2016(7):22-28.
【5】https://www.cnblogs.com/linzhenjie/p/3586032.html 社会网络分析——Social Network Analysis Linzj‘s Blog
【6】https://wiki.mbalib.com/wiki/社会网络分析 智库百科 社会网络分析
【7】刘军. 2004. 社会网络分析导论[M]. 北京:社会科学文献出版社
二、社会网络分析概念
社会网络分析是研究一组行动者的关系的研究方法。一组行动者可以是人、社区、群体、组织、国家等,他们的关系模式反映出的现象或数据是网络分析的焦点。
社会网络分析关注的焦点是关系和关系的模式,采用的方式和方法从概念上有别于传统的统计分析和数据处理方法。
一句话总结:
社会网络分析(Social Network Analysis,SNA)是用于研究行动者及其之间的关系的一套规范和方法,是一种定量的群体交互行为研究方法。
SNA以 数据挖掘 为基础,采用可视化的图以及社会网络结构的形式表示。运用这种研究方法 可以建立社会关系模型、发现社群内部行动者之间的各种社会关系。
现在来看,社会网络分析可以解决或可以尝试解决下列问题:
1-人际传播问题,发现舆论领袖,创新扩散过程;
2-Web分析,数据挖掘中的关联分析,形成交叉销售,增量销售,也就是啤酒和尿布的故事;
3-语言的关联,符号意义;
4-竞争情报分析;
5-相关矩阵或差异矩阵的统计分析,类似得到因子分析和MDS分析;
6-恐怖分子网络;
7-知识管理与知识的传递,弱关系的力量;
8-引文和共引分析;
三、教学方面的应用
1、为什么将SNA应用于教育方面?
多数研究表明,社会网络是协作学习环境的一个核心要素(Harasim,1995; Haythornthwaite, 2002)。
从某种程度上来说,知识 并不是由个体获取的静态对象,而是通过社会网络中 多个学习者持续不断的社会交互与合作进行的积极协同建构(Cohen & Prusak, 2001,pp.66-70; Lave & Wenger, 1991; Nonaka & Konno, 1998)。
从社会网络的视角来看,学习是通过无缝交流、共同实践和社会网络关系的连接实现社会和集体成果 (Brown & Duguid, 1991)。
在网络学习环境中,社会网络作为资源与知识交流的主要渠道 也发挥了工具性作用 (Cho, Stefanone, & Gay, 2002)。因此,SNA较适合研究网络协作学习交互,有助于了解学习者协作交互过程。
2、基于SNA的在线学习分析应用研究述评
刘三, 石月凤, 刘智, et al. 网络环境下群体互动学习分析的应用研究——基于社会网络分析的视角[J]. 中国电化教育, 2017(2):5-12.
(1)学习状态可视化
以学生的交互行为数据为基础;
运用社会网络分析技术,对学习者之间的社会网络进行可视化;
通过分析社会网络结构能够识别处于边缘的学生,即没有积极参与学习活动的学生,老师能给予实时干预,这些分析结果能够帮助教师提升教学质量,帮助学生提升学习效果。
(2)学习成效预测及监控
目前越来越多的学者逐渐关注把在线论坛交互作为评估学习成效的一个指标,并对学习过程进行实时监控。
印度韦洛尔科技大学的研究学者利用社会网络分析方法发掘蕴藏在MOOC中的社会结构,识别课程论坛参与活跃者以及有潜在辍学风险的学习者,以此对处于风险的学习者进行及时干预。
(3)协作学习评估
通过收集在线学习者之间的交互数据,利用社会网络分析方法分析协作学习过程中学习者之间的交互模式,能有效地评估学习共同体的协作学习水平。
捷克奥斯特拉瓦技术大学等的研究学者提出了一个评估在线协作学习交互的分层框架,其中社会网络分析作为一个核心层次通过测量网络密度、个体度中心性、网络度中心性等 评估小组交互和参与行为,这不仅能为教师提供一个更好的监控,识别协作学习群体中的活跃者或边缘者,及时给予相应的干预, 而且促使学习者对自身的学习活动做出自我调控。
(4)同伴支持推荐
在线学习环境为学习者提供一个获得更优质教育机会的同时,它的低完成率也是一个普遍存在的问题。
学习者放弃学习的其中一个原因是缺乏与同学交流来解决面临的问题。通过采集在线论坛区中学习者之间的交互数据,运用社会网络分析方法分析学习者之间的交互模式、关系的强弱,当学习者遇到困难时,可以为学习者推荐伙伴,以寻求同伴支持,从而解决面临的问题。
东北大学的研究者根据学习者在论坛中的讨论内容信息和社会网络信息, 分析学习者之间关系强弱、行为特征为学习者推荐伙伴,以解决在线学习低完成率问题。结果表明相比仅依靠内容信息为学习者推荐伙伴,同时结合社会网络信息能取得更优的学习效果。
等等。
3、数据来源
学习者交互关系的数据。
一般通过两种途径进行收集:
(1)对于线下学习中的人际交互关系,主要通过问卷调查、访谈等学习者自报告的方式进行数据采集;
(2)对于网络环境下的学习交互数据, 例如,Coursera、网易公开课、可汗学院以及其他各院校研发的在线学习平台等,关系数据通常按照 一定的格式存储在学习系统中。这些关系数据均可利用开发者提供的数据接口API或网页标签信息,利用相关 程序进行自动爬取。
4、工具
加州大学欧文分校研发Ucinet使用最为广泛 。
5、网络属性分析
使用最频繁的属性示例:
社群图;中心性;密度;凝聚子群;“核心—边缘”;等等。
6、案例分析
柳瑞雪, 石长地, 孙众. 网络学习平台和移动学习平台协作学习效果比较研究——基于社会网络分析的视角[J]. 中国远程教育, 2016(11):43-52.
以某高校78名大学三年级学生为研究对象,采用社会网络分析法对MOODLE平台和微信平台上学生协作互评所形成的交流网络进行比较分析,采用问卷调查法了解学生协作学习情况。
(Moodle是一个开源课程管理系统(CMS),也被称为学习管理系统(LMS)或虚拟学习环境(VLE)。是深受世界各地教育工作者喜爱的一种为学生建立网上动态网站的工具。 )
(1)实验数据:
学生的交互数据;
主要以MOODLE平台和微信平台上每个小组组内组间互评作业的网络交流数据为主,一次完整的评论交流记为一次互动。
(2)数据处理:
首先把每个平台小组每次任务的原始协作交流数据处理成N*N 的对称关系矩阵。矩阵中的“行”代表关系的发送者,“列”代表关系的接受者,矩阵中“0” 表示两个行动者之间没有关系,“1”表示两个行动者之间存在关系, 矩阵中的数值越大,表 两个行动者之间的关系强度越大 ( 刘 军, 2004a,pp.43-53)。行和列的每个节点都代表一个学生。
(3)分析数据:
将整理好的关系矩阵数据导入UCINET软件中进行数据分析。
(4)研究结果与分析:
1. 密度分析
密度是衡量群体内部行动者之间紧密程度的指 标,对于固定规模的群体网络,行动者之间联系越频繁,该群体网络密度越大,群体网络对行动者的态度、行为等产生影响的可能性越大,成员之间的交互程度也越强(朱晓菊,2014)。
2. 中心性分析
社会网络中心性常被用来评价一个人的重要程度、衡量一个人地位的优越性或者权利以及社会声望 (刘军, 2004b,pp.54)。
点度中心度常用来衡量一个人 在整个群体中的权威性。当一个行动者与很多行动者 有直接关联时,该行动者具有较大权力,且位于网络 社区核心位置。位于核心位置的行动者一般情况下与 其他行动者具有多种关联,处于网络社区边缘的行动 者则拥有较小权力,与其他行动者关联较少(刘军,2004c,pp.55-57)。
通过中心性分析,可以了解整个网络的核心节点以及分布情况。
(5)研究结果如下:
1、不同学习平台影响着学习者交流的活跃程度。与微信平台相比,MOODLE平台能更好地促进协作交流与互动。
2、无论是在MOODLE平台还是在微信平台,都有核心学生充当着小组协作中的关键角色,发挥着重要的组织和引导作用;(中心性分析)
3、与微信平台相比,MOODLE平台上协作小组团结度更高,凝聚力更强;(密度分析)
4、两种学习平台促进协作学习的效果不同, MOODLE平台在对协作学习的帮助作用、有用性和易用性方面较理想。
四、个人小结
SNA系统内容涵盖较大,应用方面广泛,如果想运用SNA进行分析,可能需要从具体小点着手,想从零开始进行一个系统的全盘接受需要花费时间。
更多相关内容 -
SNA
2021-03-30 21:13:49国民账户体系 -
dynamic_SNA
2021-03-02 17:34:01dynamic_SNA 该存储库包含用于动态和演化社会网络分析(SNA)项目的复制代码。 -
SNAlgorithms:SNA的一些算法
2021-06-30 23:09:15SN算法 社交网络分析(SNA)的一些算法 这些算法位于我为我最后一年的论文————工作的一个更大项目的背景下。 -
基于话题的BBS论坛的SNA分析 (2011年)
2021-04-26 05:32:11利用社会网络分析的相关方法对基于某一确定话题的BBS(BulletinBoardSystem)论坛进行分析,结合实际的...实验结果表明,用SNA分析方法可以得出正确的、重要的BBS论坛的相关特性,对进一步进行网络典论的研究具有重要意义。 -
基于SNA的微博舆情传播核心节点分析研究
2021-01-28 21:01:02负面网络舆情对社会稳定具有危害性,因此为了引导舆情良性发展,快速找到网络舆情传播中的核心...实验分析显示,文中算法排序精度在整体上高于SNA算法,因而对准确预测微博舆情传播中的核心节点具有很好的参考价值。 -
SNA核算体系的理论基础透析.doc
2021-09-21 12:11:16SNA核算体系的理论基础透析.doc -
Social_Network_Analysis:SNA 使用 sigmaJS 和 Angu;arJS
2021-07-04 22:18:55使用 SigmaJS 进行社交网络分析 SNA 使用 SigmaJS 和 Angular JS 以图形格式探索数据。ForceAtlas Layout 用于渲染图形。 -
sna:社交网络分析-应用课程
2021-05-11 06:49:25斯纳 社交网络分析-应用课程 -
SNA_research:使用来自VK API的开放数据进行社交网络的基础研究
2021-04-19 16:00:31SNA_research 使用来自VK API的开放数据进行社交网络的基础研究 -
基于SNA-DBSCAN的高校基建合作网络结构及聚类特征分析.pdf
2021-08-18 21:51:53基于SNA-DBSCAN的高校基建合作网络结构及聚类特征分析.pdf -
论文研究 - 基于SNA的航班延误风险影响因素复杂度分析
2020-05-13 18:57:09航班延误是民航运输业飞行生产保障过程中面临的重大紧急事件,将对大型机场的正常运行产生重大影响,已经对降低航班延误风险进行了综合管理。 。 减少延误事件及其后果的可能性是民航运输行业应急管理中的重要课题和... -
SNA-application-SIDRA-nd-group:项目名
2021-04-22 18:29:54DM 103348:使用SNA的图论(社交网络分析)项目成员学生卡学生姓名63986 西德拉·乌斯曼(领导) 63813 穆罕默德·安玛·海德(Muhammad Ammar Haider) 63650 杜阿·贾维里亚(Dua Javeria) 63814 穆罕默德·萨... -
论文研究-基于SNA的软件项目隐性需求知识转移问题研究.pdf
2019-07-23 00:07:58从社会网络理论的视角出发, 给出了基于项目开发团队网络结构的隐性需求知识转移的分析方法, 并通过实例分析验证了该方法的有效性, 进而为改善团队网络结构, 改进隐性需求知识转移的途径提供了有针对性的策略和建议。 -
SNA.rar_BMPLA算法_SNA_复杂网络 社团_复杂网络 算法_社团发现算法
2022-07-15 04:47:07复杂网络社团发现算法,包括重叠社团发现算法和一些非重叠社团发现算法。 -
SNA-Sandhu:SNA课程说明
2021-03-07 15:32:11SNA-Sandhu:SNA课程说明 -
signal-collect-sna:使用 SignalCollect 进行社交网络分析的存储库
2021-07-10 23:37:47将项目(如果出现问题,请尝试使用构建 sna 项目的)和此存储库的项目到您的计算机并将它们放在同一文件夹中(项目的文件夹必须是命名为“信号收集”和“信号收集-sna”)。 确保 Java 8 在系统上可用,在命令行上... -
public-sna:课程,书籍等的SNA脚本
2021-05-17 20:10:30公共网络课程,书籍等的SNA脚本 -
speed-sna
2021-03-15 07:35:53speed-sna -
sna_final
2021-02-15 22:00:52sna_final -
sna_lecture
2021-02-08 02:06:12sna_lecture -
股票-sna
2021-02-12 14:04:28该项目是通过。可用脚本在项目目录中,可以运行:npm start 在开发模式下运行应用程序。 打开在浏览器中查看。 如果进行编辑,页面将重新加载。 您还将在控制台中看到任何棉绒错误。npm test 在交互式监视模式下启动... -
基于社交网络分析算法(SNA)的反欺诈(二)
2019-12-23 17:48:34基于社交网络分析算法(SNA)的反欺诈(一) 社交网络分析算法并不新鲜,且已经广泛应用于社交人物影响力计算、好友和商品推荐、社交圈子分析等领域。近几年,社交网络分析算法的应用不断拓展,已经开始应用于各种...基于社交网络分析算法(SNA)的反欺诈(一)
社交网络分析算法并不新鲜,且已经广泛应用于社交人物影响力计算、好友和商品推荐、社交圈子分析等领域。近几年,社交网络分析算法的应用不断拓展,已经开始应用于各种金融和保险等反欺诈领域,且效果很好。
为了讲解基于SNA的反欺诈,我先简单介绍下SNA的原理。为了方便理解,我会直接忽略很多细节(例如:入度和出度的概念),以下内容都是为了有助于理解反欺诈建模,想了解SNA更系统的知识请参看其他材料。
#基础知识#
节点(Vertice)和边(Edge)
社交网络,顾名思义,就是表现人和人之间关系的网络。类似的,社交网络分析算法,也就是为了研究节点(可以理解成人)和节点关系(边,可以理解成人和人之间的关系)的算法。通过对关系的研究,可以对节点关系做梳理,从而聚成团。
为了方便对下文指标的理解,我们定义节点数 N = |V|, 边数 M = |E|
图(Graph),有向图,无向图
用边把节点连接起来形成的网络,称为图(Graph)。图又可以分成无向图和有向图,如下图所示:
无向图仅表示节点和节点之间是否有关系,例如:在P2P行业反欺诈建模中,我们通过申请者通讯录去获取其社会关系,例如,如果张三和李四的通讯录都有老赖王五,那么,张三和李四的贷款申请违约风险就会比较高。
有向图相比于无向图会携带方向信息,一个最简单的例子就是传销图。传销有非常成熟的上下线制度,是发展团队十分迅速有效的手法,也被互联网公司广泛用于发展用户——好友邀请制度,此外,保险销售公司也有类似的提成机制。如被不法分子利用规则,对互联网公司,产生的后果就是大规模虚假注册;对保险销售公司,产生的后果就是内外勾结骗取额外提成。
社区(Community),非重叠社区,重叠社区
社区可以理解成UML中的群组,也就是同一个社区中节点和节点关系紧密,而社区和社区之间关系稀疏。
如果任意两个社区的节点集合的交集为空则被称为非重叠社区,否则称为重叠社区。
派系(Clique),完全子图
派系是指任意两个点都相连的节点的集合,又称为完全子图。
#分析指标#
指标一:度
简单来讲,度就是指从你这个节点发散出去了多少条边,或者可以理解成你有多少个朋友。
指标二:度中心性
我们在每个节点上都标注上其度的值大小,如下图所示:
我们接下来做标准化处理,用度除以最大连接可能(N-1),则得到:
形象地讲,中心性指越高,表示与你有联系的人越多,或者说,你的社交人物影响力就大。这是一个社交网站分析用户行为时一个常用的指标。
指标三:集中度(Centrality)
集中度表示一个群体的紧密程度,或者可以理解成密度。集中度又可以分为度集中度,紧密集中度和介数集中度,还有图集中度、特征向量集中度等,以下我们主要介绍前三种。
3.1 度集中度(Degree centrality)
度量集中度的方式有很多,例如,基尼系数、标准差和Freeman集中度公式。以下,我们以Freeman集中度通用公式为例计算:
其中,v*指度最大的节点。
根据上述公式计算如下两图的度集中度:
3.2 紧密集中度(Closeness centrality)
依赖于从一个结点出发到其它所有结点的最短路径长度,并被定义为总长度的倒数。
节点i的紧密中心如下所示:
而通常我们讲紧密中心度,是指其标准化形式,也即总距离长除以(N-1)
3.3 介数集中度(betweenness centrality)
直观理解,介数就是多少个节点对必须经过本节点实现最小跳数互达。定义如下:
其中,gjk表示节点jk最短路径的个数,gjk(i)表示i位于最短路径的个数。
同样,我们将其标准化,除以除本节点外其他节点对个数,得到:
还是以下面两图作为示例来计算介数集中度:
A在(B,C),(B,D),(B,E),(B,F),(C,D),(C,E),(C,F),(D,E),(D,F),(E,F)十个节点对的最短路径上,非标准化值为10;
BCDEF不在任何节点对的最短路径上,所以非标准化值为0。
简单解释一下:
对于节点A和E,都不在任何节点对的最短路径上,所以为0;
对于节点B,在(A,C),(A,D)和(A,E)三个节点对最短路径上,非标准化值为3。类似地,节点D与B情况相同,也为3;
对于节点C,在(A,D),(A,E),(B,D)和(B,E)四个节点对最短路径上,非标准化值为4。
感谢作者mryqu:http://blog.sina.com.cn/s/blog_72ef7bea0102v748.html
感谢作者du00cs: http://blog.sina.com.cn/s/blog_439371b501012lgt.html
感谢作者fionaplanet:http://www.cnblogs.com/fionacai/p/6262527.html
基于社交网络分析算法(SNA)的反欺诈(二)
关于SNA基础知识和指标,可参看本系列文章《基于社交网络分析算法(SNA)的反欺诈(一)》,本文主要讲SNA算法。
算法一:PageRank算法
PageRank算法用一句古文来讲,就是“近朱者赤,近墨者黑”,也就是被高质量网页引用的网页也是高质量网页,或者被用户访问越多的网页可能质量越高。我们在大学写论文投期刊的时候,也会看到类似的数字,比如:期刊的影响因子、被引用次数。影响因子和被引用次数越高,表示这个期刊越好,如果被这样的期刊录用,也表示你的学术水平得到了极大的认可。再比如,相信每个支付宝用户都受到过芝麻信用的善意提醒:多结交信用度高的朋友,有助于提高自己的芝麻分,也是一样的道理。《黑镜》第三季第一集便是把信用评分社会夸张到极致,也是对社交网络的一种诠释。
PageRank算法被广泛用于搜索引擎结果排序,而为了抵御Spam,各搜索引擎采用的排名算法实际上是保密的,PageRank的具体计算方法也不尽相同。这里,我只讲一种最简单,但也可以揭示PageRank本质的算法——基于页面链接属性的PageRank算法。
背景假设:
(1) 全世界只有4个网页,ABCD,我们讲每个网页抽象成一个节点;
(2) 如果页面A有链接指向B,我们就认为有一条从A到B的有向边;
(3) 假设一个用户停留在某一页面时,跳转到页面上每个链接的概率是相等的;
那么,假设我们根据以上背景,绘制了这4个网页的关系图,如下:
我们定义这个一个矩阵,其第i行j列第值表示用户从页面j跳转到i的概率,并将其命名为转移矩阵(transition Matrix)。那么,我们绘制上图的转移矩阵M,如下:
为了计算每个网页的rank值,我们先初始化各页面值,令其相等。在这个例子中,也就是ABCD都是1/4。那么,建立rank值的初始向量v:
那么,一个用户来到这个网页,随机点开网页,会使四个页面的rank值更改至如下:
第二个人来,再次点击,会再次更改rank为MMv,如此这般不断迭代,最终rank值会不断收敛到某个设定的阈值,得到的值就是整个页面的PageRank值。再这个例子中,大约收敛到(A,B,C,D)T=(1/4,1/4,1/5,1/4)T。
实际应用中,网页外链到其他网页的概率并不相同,或者可能停留在此页面,可以增加一个阻尼因子(a)表示用户停留当前页面不链接到其他页面的概率。
算法二:社区发现算法
社区发现算法的思路就是在复杂网络中发现连接紧密的节点簇(社区结构),与聚类的思路如出一辙。发现这些社区结构的方式有很多中,本文主要介绍几种简单但常用的算法:GN算法,Louvain算法,LPA算法和SLPA算法。
2.1 GN(Girvan-Newman)算法
GN算法是一个最经典的社区发现算法,属于分裂的层次聚类算法(自上而下)。因最初由MichelleGirvan和Mark Newman提出而得名。GN算法的基本思想是不断删除网络中具有相对于所有源节点的最大边介数的边,然后,再重新计算网络中剩余的边的相对于所有源节点的边介数,重复这个过程,直到网络中所有的边都被删除。怎么理解呢?通过介数的定义我们知道,介数是多少个节点对必须经过本节点实现最小跳数互达的值,而介数高的边必然要比介数低的边更可能是社区之间的边(两个社区中的节点之间的最短路径都要经过那些社区之间的边,所以它们的介数会很高)。为了方便理解,可以参看下图,方块节点和圆形节点的最短路径,必然要经过边AB,因此边AB的介数最大,拆除这条边,就可以将其分成1#和2#两个团体了,或者称之为两个社区。
然而,虽然GN算法的准确率很高,但是计算量大,时间复杂度也很高。
2.2 Louvain算法
Louvain可以理解成GN的逆过程,GN的思路是不断拆边,类似于自上而下的层次聚类。而Louvain则是不断凝聚,类似于自下而上的层次聚类。为了理解Louvain算法的过程,我们先来学习一个社区评价指标——模块度。
模块度(Modularity)用来衡量一个社区的划分是不是相对比较好的结果。一个相对好的结果在社区内部的节点相似度较高,而在社区外部节点的相似度较低。
设Avw为网络的邻接矩阵的一个元素,定义为:
假设cv和cw分别表示点v和点w所在的两个社区,社区内部的边数和网络中总边数的比例:
函数δ(cv,cw)的取值定义为:如果v和w在一个社区,即cv=cw,则为 1,否则为 0。m为网络中边的总数。
模块度的大小定义为社区内部的总边数和网络中总边数的比例减去一个期望值,该期望值是将网络设定为随机网络时同样的社区分配所形成的社区内部的总边数和网络中总边数的比例的大小,于是模块度Q为:
其中kv表示点v的度。
在进行每次划分的时候计算Q值,Q取值最大的时候则是此网路较理想的划分。Q值的范围在0-1之间,Q值越大说明网络划分的社区结构准确度越高,在实际的网络分析中,Q值的最高点一般出现在0.3-0.7之间。
好,介绍完模块度,我们就可以开始使用Louvain算法了。首先,我们把每一个节点当作一个独立的社区,假如我们把V1和V2加入到i都会使其模块度增加, 我们比较两者的数值,选择增量较大的一个加入到i社区中。如此这般反复迭代,直到模块度Q的值不再增加为止。
3.3 LPA(Label Propagation Algorithm)
LPA算法的稳定性不是很好,但优点是可扩展性强,时间复杂度接近线性,且可以控制迭代次数来划分节点类别,不需要预先给定社区数量,适合处理大规模复杂网络。LPA的计算步骤也十分简单:
第一步:为所有节点指定一个唯一标签;
第二步:刷新标签:对于某一个节点,考察其所有邻居节点的标签,并进行统计,将出现个数最多的那个标签赋给当前节点(如果最多的标签不唯一,随机选择一个);
第三步:重复步骤二,直到收敛为止。
3.4 SLPA (Speaker-listener Label Propagation Algorithm)
SLPA是一种改进的LPA,是一种重叠社区发现算法,其中涉及一个重要的阈值参数r。通过对r的适当选取,可将其退化为非重叠型。
SLPA算法思路
SLPA中引入了listener和speaker两个比较形象的概念。可以这么理解:在刷新节点的过程中,我们将要被刷新的节点定义为listener,其临近节点就是它的speaker,speaker通常不止一个,在众多speaker七嘴八舌时,listener该听谁的呢?这时我们就要制定一个规则。
在LPA中,我们以出险次数最多的标签来做决断,这其实就是一种规则。只不过在SLPA框架里,规则的选取方式多由用户指定(通常结合业务逻辑和场景决定)。
与LPA相比,SLPA最大的特点在于它不是仅仅的刷新替代原标签,而是记录每一个节点在刷新迭代过程中的历史标签序列(例如迭代T此,则每一个节点将保留一个长度为T的序列,见上面著名的手绘图)。当迭代停止时,对每一个节点历史标签序列中各标签出现的频率做统计,按照某一个给定的阈值过滤掉那些出现概率小的标签,剩下的标签为该节点的标签(通常有多个)。
PS: SLPA后来被作者改名为GANXiS
感谢作者张洋:http://blog.jobbole.com/23286/
感谢作者八刀一闪:https://www.jianshu.com/p/44c4206979a6
感谢作者皮果提:http://blog.csdn.net/cleverlzc/article/details/39494957
基于社交网络分析算法(SNA)的反欺诈(三)
关于社交网络分析算法的基础知识、评价指标和常用算法思路请参看本系列的前两篇文章《基于社交网络分析算法(SNA)的反欺诈(一)》和《基于社交网络分析算法(SNA)的反欺诈(二)》,本文主要讲社交网络算法的应用。
应用一:消费金融反欺诈
近年来,消费金融行业快速发展,相比于传统商业银行,形成了自己独特的优势:填写字段少、在线操作、审核速度快、放贷及时。这类申请人群通常因缺乏征信信息(一是客户年轻化,二是一些消费金融公司不具有查询征信的资格)而给消费金融企业带来了巨大的信用和欺诈风险。
如何在有限信用记录甚至是“零”信用记录下进行更准确的风险控制和欺诈识别是消费金融公司降本增效的关键问题。
解决这个问题通常有两种方案,一是运用商业银行广泛使用的成熟的评分卡模型;二是新兴的基于机器学习的信用预测(评分)模型。事实上,巧妙利用机器学习,可以将两种方案结合,互为补充。
机器学习的原料是数据,数据主要分为三类:一是用户主动提交的申请表信息;二是企业主动获取的信息,如:用户行为数据,设备数据,通讯录等;三是第三方数据(征信公司、运营商、社保公积金中心、法院执行、医院等)。
有了数据,第二步就是要进行特征工程,这也是整个算法中最核心的一步。对此,作者的文章《反欺诈建模之数据预处理(文末有福利)》有比较详细的介绍,在此不再赘述。
第三步,跑模型。由于本系列我们的主角是SNA,我们看下面一个典型社区。
图中,红色的点代表被拒绝的用户,黑色的点代表穿越用户(通过申请但有预期表现的用户),绿色的点代表通过且表现良好的用户。总结一下,该团伙的拒绝率达到66.8%,说明该团伙的平均用户信用值较低;穿越用户占所有通过用户的91.4%,进一步验证了该团伙的欺诈性。
特别地,在利用SNA进行社区分析时,派系图具有更高的风险性。这种图的背后通常是多人协作的团伙作案,其两两互通表示两两认识,背后的目的多为相互勾结,伪造信息以达到消费金融借贷审核要求,且这类社群多有内外勾结的情况,需要重点关注。
应用二:信用卡申请反欺诈
信用卡申请欺诈与消费金融类似,只是目前,信用卡线上化平均水平只有70%,且有些银行甚至还没有开始采集设备信息,因此缺乏一些在线电子化信息。但由于信用卡中心具有查询用户征信数据的资质,所以相比于消费金融,会增加征信数据,对模型输入是一个很好的补充。
应用三:保险理赔反欺诈
SNA应用于保险理赔反欺诈已经有几年的时间了,据某保险公司产险风控部专家透露,自其上线SNA算法后,每年可提高预检率2%,多识别出400+欺诈团伙,为公司节约2亿+虚假理赔款。
车险理赔欺诈案件的识别,通常是利用车辆涉案人员、包括司机、报案人、受益人和伤者,以及修理厂、报案电话、检修地点、GPS信息等数据进行SNA分析,识别可能的骗保团伙。例如,平安保险林晟副总经理在2015年分享的一个案例:有两个上海车牌车辆与两个江苏车牌车辆发生了碰撞事故,单看感觉每个案件都很正常,但把他们放到SNA网络时,发现这个车的司机时那个案件的伤者,而一个案件的报案人又是另一个案件的司机。通过进一步调查分析,发现两个驾驶员驾驶不同车辆,一年内共5次出险。
还有一个典型案例,可以与大家分享:
一修理厂员工通过驾驶道具车,充当三者,故意制造双方事故,短期内高频出险,利用交警“微损案件快速处理”的漏洞,自行拍摄车辆损失代替现场勘查,骗取保险赔款。通过SNA分析,除了修理厂的赵某某和蔡某某外,还发现了其他7名驾驶员,一举拿下这个骗保团伙。
由于现在各保险公司的价格都已经不断趋于同质化,而对于保险人选择保险公司的依据也早已不是单独的价格敏感了,快速理赔已经成为保险公司吸引保险人的重要因素之一了。因此有不法分子利用小额(<5000元)理赔便利,进行高频出险骗保,SNA网络可以有效识别这一类骗保行为,将骗保团伙一网打尽。
应用四:销售网络反欺诈
销售网络反欺诈是有向图的一个典型应用。为了促进销售量,很多公司在促销产品和服务时,都有发展二级代理或更下级代理的提成策略。而通常下级代理在卖出产品或服务时,上级代理会得到销售公司的额外奖励。例如,某保险销售公司,如果二级代理销售出一份保险,上级代理可获得销售公司额外的1%提成。如此,上级代理便利用这个规则,将自己的保单全部挂在二级代理上,以此获得不法收入。据统计,仅一年时间,某销售网点就利用销售提成奖励机制获取800万额外提成(涉案金额8000万元人民币)
特别感谢:本系列文章是基于维基百科、博客、微博等网络素材和黄姐姐实际项目经验所作,在此特别感谢所有提供素材的作者和客户爸爸们。
-
sna:Coursea 上的社交网络分析课程项目,关于 GitHub 用户对存储库的兴趣
2021-07-10 13:22:30Coursera上的社交网络分析课程项目这是SNA在Coursera上的课程项目,于2014年11月24日完成。 本工作主要分析 GitHub 用户对存储库的兴趣网络,以存储库为节点,以对两个存储库加星的用户数为边。 分析不仅关注2012年1... -
Python库 | sna-0.0.8.tar.gz
2022-05-22 04:49:35资源分类:Python库 所属语言:Python 资源全名:sna-0.0.8.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059 -
Guanxi SNA-开源
2021-04-27 17:53:33“关系”是针对社交网络分析师的强大分析和模拟应用程序。 “关系”使该领域的研究人员可以创建,导入和导出无穷无尽的网络,分析其结构并对其进行自定义动力学。 -
SNA_HW2
2021-03-10 22:34:02SNA_HW2 -
Social network analysis with R sna 包介绍1
2022-08-03 20:47:13Social network analysis with R sna 包介绍1 -
SNA技术在机构关系分析中的应用 (2009年)
2021-05-10 03:32:12为获取同类机构的关系信息,设计一种基于社会网络分析(SNA)技术的机构关系分析过程.以社会科学院机构为例,构建社会关系网络,定量和定性描述机构的学科特性,在此基础上分析机构在学科归属上的共现关系,再通过分层... -
Python库 | sna_prediction-1.1.tar.gz
2022-04-15 13:19:44资源分类:Python库 所属语言:Python 资源全名:sna_prediction-1.1.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059