精华内容
下载资源
问答
  • 因此,采用关系网络对欺诈进行识别尤为重要。 关系网络在反欺诈中最常见的应用即为团伙欺诈识别。在进行贷款申请的时候,团伙欺诈分子往往会使用一些共同的信息,比如说联系人信息重合度较高、使用相同地址等等。在...

    由于欺诈的模式是随着时间不断演化和发展的,仅仅使用过去的数据表现来预测未来的欺诈风险效果可能会不那么显著。同时,随着反欺诈技术不断的提升,单打独斗式的欺诈变得越来越困难,团伙式的欺诈变得更加普遍。因此,采用关系网络对欺诈进行识别尤为重要。
    关系网络在反欺诈中最常见的应用即为团伙欺诈识别。在进行贷款申请的时候,团伙欺诈分子往往会使用一些共同的信息,比如说联系人信息重合度较高、使用相同地址等等。在关系网络中,一个正常的个体往往是一个独立的节点,或者与一两个其他节点组成一个团体。而当出现了多个关系密切的节点时,就需要引起重视了。
    比如在反欺诈的图数据库中,团伙欺诈的关系有以下特殊:
    在这里插入图片描述
    单独看个体很难发现异常,但当视角扩大到网络后,会有新的发现,本着最小化成本的原则,团伙作案通常会共享一部分信息或共享几台设备。目前这种是比较高明的的团伙欺诈,最危险的图形。黑产团伙多会在社区里多次频繁更换信息。最开始的时候会用到两到三次信息,接着再继续更换信息。目前这种特殊社区,因为还没有统一的标准名称,我们统一称为特殊社区。一般不具有关系图库的话,根本没有办法发现这是一个社区团伙。作为这一步欺诈团伙欺诈分析后,紧接着我们需要上线的策略也有以下类型:
    在这里插入图片描述
    比如在以上的关联度计算中,我们还可以拆分为:
    a.用户总计关联度计算

    b.用户设备指纹关联度计算
    c.用户基本信息关联度计算

    d.用户通讯录关联度计算

    以上各个策略的计算逻辑是什么?做好了相关的变量之后,策略的阈值又该如何设置?在做图数据库的相关计算中,又可以分为哪些类型,本次我们在即将开播的关系网络专题课中,继续为大家带来这样一节一天的干货课程。
    本次专题课我们用到OrientDB为大家进行实操演示,并且此次通过云端数据库即可实操这一内容,省去了本地安装部署的繁琐步骤:
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
    关于关系网络染色的过程,我们在这一次的关系网络实操专题课中更会重点介绍。本次专题内容,不仅仅是关系网络理论知识的讲解,我们还将从理论+实操案例的角度,为各位童鞋深度剖析关系网络实操落地。
    对本课程感兴趣,可以点击底部左下角【阅读原文】了解:
    在这里插入图片描述
    另外:本文所提及的相关数据案例,各位童鞋也可到番茄风控大数据下载相关excel学习了解:

    原创文章

    end

    展开全文
  • “本文业务角度分享了风控业务中构建关系特征的一些实践经验,包括数据源分析,关系网络和特征的构建,特征性能的评估以及线上方案的落实。”作者:求是汪在路上来源:知乎专栏 风控模型算法。编辑...

     本文业务角度分享了风控业务中构建关系特征的一些实践经验,包括数据源分析,关系网络和特征的构建,特征性能的评估以及线上方案的落实。

    作者:求是汪在路上

    来源:知乎专栏 风控模型算法。

    编辑:happyGirl

    风控业务背景

    常规RFM时间切片统计特征侧重于纵向维度量化用户风险,而关系网络特征则从横向维度来评估。纵向是指同一用户在不同时间段上的行为异常风险;横向是指在同一个时间段里聚集的不同用户放在一起评估风险。因此,关系网络特征可作为常规RFM特征的一个有力补充,为风控模型带来可预见的增量效果。

    芝麻信用分中的人脉关系维度可以给我们带来很多启发,其又细分为人脉圈稳定性、社交影响力指数和信用环境指数三个子指标。其中信用环境指数是本文主要参考学习的方向。

    图1 - 芝麻信用评分维度之人脉关系

    本文不围绕各种复杂的社区发现算法展开,只从业务角度分享下构建关系特征的一些实践经验。关系网络中最重要的两部分无非就是——边(edge)和节点(node)。围绕这两点,我们可以考虑几个问题:如何分析可用数据?如何根据已有数据源来构建关系网络?如何构建关系特征?如何评估关系特征的性能?如何落实上线方案?

    目录
    Part 1. 如何分析可用数据?
    Part 2. 如何构建边关系?
    Part 3. 如何使用节点特征?
    Part 4. 如何使用存量数据和增量数据?
    Part 5. 如何实时上线?
    Part 6. 如何验证关系特征的效果?
    Part 7. 如何去优化关系特征?
    致谢
    版权声明

    Part 1. 如何分析可用数据?

    1. 考虑数据源的稳定性。

    在风控中, 稳定性压倒一切。数据源是构建特征的前提,如果数据源采集上就不稳定,必然导致特征波动。那么为了调研数据源采集情况,我们该咨询哪些人员,以及关注哪些问题呢?以下是笔者的一些实践建议:

    • 信贷产品设计人员 :了解产品页面跳转流程,包括:在哪个页面将会要求用户导入资料?需要用户授权同意哪些数据采集协议?新用户相对于老用户会少哪些数据?

    • 外部数据对接开发人员 :外部数据是其他数据公司所提供的,从而可能存在一些不确定性。例如,由于输出变量不稳定而被使用方下线,或者由于协议到期而被提供商下线。需要明确:外部数据在哪个环节(额度、定价、支用)调用?覆盖哪些产品和客群?外部数据接口调用的稳定性?

    • 风控策略人员 :了解风控流程和未来业务调整计划。风控流程图帮助你理解在整个风控链路上数据采集和风控策略之间的映射关系;业务调整计划帮助你排除一些未来不可用数据。例如,为提高用户转化率或合规性要求,未来计划把某些用户数据 由必导项改为自选项 ,那么可预见这块数据未来的采集率将会逐渐下降。如果对这块数据依赖性高,就会导致模型不稳定。此时,我们就不得不放弃实时数据的使用,或者考虑分箱等方式来平滑影响,或者考虑如何利用存量历史数据。

    ???? 建议 :可分产品线、时间粒度(天/月)等维度统计数据的缺失率,以此分析数据的稳定性。

    2. 考虑数据源的厚薄度

    由于各个数据源在不同时间点开始采集,因此数据的厚薄程度存在差异。在构建时间切片特征时也需注意这一点—— 明确观察期窗口是否有效。例如,数据采集时间是从2018-01-01开始的,如果要统计最近30天内的RFM特征,那么有效的观察期窗口就是30天,有效的观察点(样本)就只能从2018-02-01开始,2018年1月份的样本由于观察期不满30天就无法统计到有效的特征。在样本特征回溯中,笔者经常看到某些同学犯这个错误。

    因此,如果某块数据在最近才开始采集,那也不得不舍弃。

    3. 考虑模型的应用场景。

    特征是为模型服务的。因此,在构建关系特征前,我们需要明确模型的应用场景,为模型“量身定制”。如果计划用在风险定价(A卡模型)环节,那么某些在A卡之后的环节才能获取的数据就无法使用。很多建模经验不足的同学,不管三七二十一,直接把所有可能使用的数据拿来测算,根本没考虑过线上如何使用的问题。最后,要么离线测算结果就不佳,要么最后根本无法上线使用。

    ???? 建议 :罗列一份数据源质量分析清单,笔者在整理中的结果表示例:

    图2 - 数据源质量分析清单

    Part 2. 如何构建边关系?

    我们可以从 关系强弱(边权重)覆盖率(边数量)两个维度来衡量数据源对定义边的重要性。由于各家公司对数据源获取情况各异,在此就只对目前市场上的数据源分析关系强弱。

    1. 运营商数据 :关系⭐️⭐️⭐️⭐️⭐️。可根据最近N天内通话记录次数等指标来衡量两个人之间的亲密程度。

    2. 设备数据 :关系⭐️⭐️⭐️⭐️。可根据最近N天内是否共同使用过一台设备、是否共同使用过同一个Wi-Fi等指标衡量。

    3. 通讯录数据 :关系⭐️⭐️⭐️⭐️⭐️。通讯录中所存号码的备注信息可判断亲密度。

    4. 紧急联系人数据 :关系⭐️⭐️⭐️⭐️⭐️。通常情况下,用户所填的紧急联系人会是自己的家人、同事、亲友等。

    5. 电商地址数据 :关系⭐️⭐️⭐️。根据地址相似度比对来判断用户之间存在的关系。由于地址数据需要提前规整,处理难度大。

    6. 运营老客拉新数据 :关系⭐️⭐️⭐️。产品运营活动中常会推出各种老客拉新活动以实现用户增长。链接传播渠道一般是微信。因此被拉的新客与老客之间通常是微信朋友关系。

    7. 银行卡转账记录数据 :关系⭐️⭐️⭐️。通常情况下,覆盖率较低。

    8. LBS地址位置数据 :关系⭐️。由于设备经纬度数据采集误差和位置时效性强的问题,这块数据对于衡量用户关系较弱。

    9. 其他数据

    在罗列出所有可用于构建边关系的数据后,我们又会面临一个问题:每个数据源就可以提取出多个边关系,那么就可以构造多个子网络,我们该如何处理这些边?

    可以有以下2种做法:

    • 特征层融合 :对每个子网络独立构建图特征,在特征层中融合。该方案在实践中的优点在于方便直观,可并行;缺点在于工作量大,如果有a个数据源,每个数据源可提取b种关系的边,又有c个节点特征,此时就会衍生出 a ✖ b ✖ c个特征。在建模中,也不可能对这所有的特征入模,需要开展大量的特征筛选工作。

    • 网络层融合 :该方案在实践中的优点在于将各类强边弱边融合在一起(w1 * e1 + w2 * e2 + w3 * e3 + ...),使边的内在含义更为丰富,边的覆盖率得到提升;缺点在于无法很好对融合权重赋值,前期可考虑专家经验拍定,后期优化可以考虑结合具体的target来训练估计。

    图3 - 特征层融合 VS 网络层融合

    Part 3. 如何使用节点特征?

    一般情况下,节点特指用户(当然也可以是手机号、设备等)。我们可以通过RFM模型批量生产出大量时间切片特征,或者根据业务理解构造出强业务特征。

    而关系网络的一个价值在于:利用节点所在群体(可以是一度、二度,或者社区发现算法挖掘出的簇)中的邻居节点特征,通过关系网络传播到某个节点上。

    如果节点特征表对邻居节点的覆盖率低(通常情况下,邻居节点数 >> 特征表中节点数),那么网络传播过程将会大打折扣。试想,一个下单用户好不容易找出100个一度邻居,然而只有3个邻居节点特征变量有值,其余邻居节点特征都为null,那么通过传播(对邻居节点求mean、max、min、sum聚合操作)后,该下单用户仅仅利用了3个邻居的信息。

    ????因此, 节点特征表中的用户量决定了特征传播的上限。

    接下来,我们就会考虑如何去扩充节点特征表中的用户量?最直接的做法——我们把历史全量用户的特征都拿过来用不就行了?但需要注意的是,用户特征具有时效性。 所谓 时效性,是指用户特征是否能有效反映用户最近的风险。 因此,贪多反而会引起特征质量下降,两者需要做权衡。

    如果该特征的稳定性比较好(反映用户稳定属性的特征,如性格、信用等),那么就可以尽可能使用历史存量数据。也就是说,设定节点特征表的有效期为1年(或更长),在有效期内的历史全量节点特征,我们都可以拿来传播。例如信用卡额度,通常认为一个用户在1年内的额度不会发生太大变化。

    反之,对于时效性强的特征,我们宁可牺牲覆盖率,也要缩短有效期,目的是为了保证特征的时效性。例如同盾这类的多头借贷数据,随着接入和退出机构的动态变化,半年前的同盾数据可能已经无法反映用户当前的借贷风险,若直接使用反而会引入噪声。

    对于某个节点(用户)特征表在不同时间点存在多条记录的,可以考虑以下策略:

    1. 取最近一条,保证特征的时效性最强。

    2. 参考遗忘曲线,对不同时间点的特征进行加权融合。

    图4 - 特征有效期和取用策略

    Part 4. 如何使用存量数据和增量数据?

    1. 增量数据:一般指实时数据,可直接计算一度关系的边权重。例如,如果用户申贷下单时必须导运营商数据,那么就可以根据实时导入的通话记录来构建图关系网络。这是最新的数据,自然更能反映用户此时的风险。

    2. 存量数据:在一些场景下,我们不得不依赖于使用存量数据。

    • 场景1: 前期业务流程中要求用户强制导运营商数据,后期变成用户可选提额项。

    • 场景2: 某块数据之前都是在定价环节才调用,而此次建模希望用在额度环节(在定价之前)。

    此时,我们该如何使用呢?考虑到对于某些新用户,虽然其自己没有导入运营商这类的关系数据,但是可能其身边的人在历史申贷时就已经导入过资料。那么,在历史关系网络中,该新用户就被囊括在其中。因此,存量数据也有其使用价值。

    同样的道理,我们需要考虑关系网络也具有时效性。某些历史关系网络比较稳定,比如家人关系,那么就可以使用较久版本的,否则就只能用最近的,甚至不使用。

    图 5 - 关系网络有效期

    Part 5. 如何实时上线?

    据笔者所知,目前线上计算二度关系的技术门槛仍然很高,因此我们在实时计算时考虑一度关系(应该也能达到80%的baseline效果,剩下的20%可能就需要靠高阶关系了),二度关系甚至更为复杂的社区发现算法则放在离线计算。因此,在实时构建一度关系和离线提供一度和多度关系的相互补充下,将会得到相对于只用实时一度关系更好的效果。

    节点特征表则可通过离线提前计算,并将有效期范围的不同观察点的节点特征汇总成一张表,导入到线上数据库。

    对于实时订单,可实时构建出关系网络,取出一度联系人和相应的边权重。并从节点特征表中取出邻居用户的特征,进而传播扩散,生成实时图特征。

    Part 6. 如何验证关系特征的效果?

    在风控建模中,评估特征性能最为关注稳定性和区分度。稳定性可用PSI(群体稳定性)来计算,而区分度可用IV(信息量)来衡量。再次强调稳定性在风控中的重要性。

    因此,可按照以下步骤来快速评估:

    1. 考虑先回溯足够多的样本,通常是要求几个月以能评估稳定性

    2. 先评估特征的区分度。对于IV很高的特征,再次确认取数逻辑中是否用到未来信息。

    3. 筛选出区分度较强的特征,进一步评估稳定性。

    Part 7. 如何去优化关系特征?

    1. 引入边权重,而不仅仅是有关联的一度用户。

    2. 离线增加更多关系较强但覆盖率较低的边,以起到补充更多一度联系人的作用。

    3. 节点特征增加更多维度。本质还是在于特征传播,因此加有效的节点特征是最重要的。

    4. 利用样本和target变量对关系网络融合权重参数估计,以期达到更合理的网络融合。

    关于作者

    在某互联网金融公司从事风控建模、反欺诈、数据挖掘等方面工作,目前致力于将实践经验固化分享,量化成长轨迹。

    备注:公众号菜单包含了整理了一本AI小抄非常适合在通勤路上用学习

    往期精彩回顾
    
    那些年做的学术公益-你不是一个人在战斗适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册备注:加入本站微信群或者qq群,请回复“加群”加入知识星球(4500+用户,ID:92416895),请回复“知识星球”
    

    喜欢文章,点个在看

    展开全文
  • 因此,关系网络特征可作为常规RFM特征的一个有力补充,为风控模型带来可预见的增量效果。 芝麻信用分中的人脉关系维度可以给我们带来很多启发,其又细分为人脉圈稳定性、社交影响力指数和信用环境指数三...

    风控业务背景

    常规RFM时间切片统计特征侧重于纵向维度量化用户风险,而关系网络特征则从横向维度来评估。纵向是指同一用户在不同时间段上的行为异常风险;横向是指在同一个时间段里聚集的不同用户放在一起评估风险。因此,关系网络特征可作为常规RFM特征的一个有力补充,为风控模型带来可预见的增量效果。

    芝麻信用分中的人脉关系维度可以给我们带来很多启发,其又细分为人脉圈稳定性、社交影响力指数和信用环境指数三个子指标。其中信用环境指数是本文主要参考学习的方向。

    图1 - 芝麻信用评分维度之人脉关系

    本文不围绕各种复杂的社区发现算法展开,只从业务角度分享下构建关系特征的一些实践经验。关系网络中最重要的两部分无非就是——边(edge)和节点(node)。围绕这两点,我们可以考虑几个问题:如何分析可用数据?如何根据已有数据源来构建关系网络?如何构建关系特征?如何评估关系特征的性能?如何落实上线方案?

    目录
    Part 1. 如何分析可用数据?
    Part 2. 如何构建边关系?
    Part 3. 如何使用节点特征?
    Part 4. 如何使用存量数据和增量数据?
    Part 5. 如何实时上线?
    Part 6. 如何验证关系特征的效果?
    Part 7. 如何去优化关系特征?
    致谢
    版权声明

    Part 1. 如何分析可用数据?

    1. 考虑数据源的稳定性。

    在风控中, 稳定性压倒一切。数据源是构建特征的前提,如果数据源采集上就不稳定,必然导致特征波动。那么为了调研数据源采集情况,我们该咨询哪些人员,以及关注哪些问题呢?以下是笔者的一些实践建议:

    • 信贷产品设计人员 :了解产品页面跳转流程,包括:在哪个页面将会要求用户导入资料?需要用户授权同意哪些数据采集协议?新用户相对于老用户会少哪些数据?

    • 外部数据对接开发人员 :外部数据是其他数据公司所提供的,从而可能存在一些不确定性。例如,由于输出变量不稳定而被使用方下线,或者由于协议到期而被提供商下线。需要明确:外部数据在哪个环节(额度、定价、支用)调用?覆盖哪些产品和客群?外部数据接口调用的稳定性?

    • 风控策略人员 :了解风控流程和未来业务调整计划。风控流程图帮助你理解在整个风控链路上数据采集和风控策略之间的映射关系;业务调整计划帮助你排除一些未来不可用数据。例如,为提高用户转化率或合规性要求,未来计划把某些用户数据 由必导项改为自选项 ,那么可预见这块数据未来的采集率将会逐渐下降。如果对这块数据依赖性高,就会导致模型不稳定。此时,我们就不得不放弃实时数据的使用,或者考虑分箱等方式来平滑影响,或者考虑如何利用存量历史数据。

    👉 建议 :可分产品线、时间粒度(天/月)等维度统计数据的缺失率,以此分析数据的稳定性。

    2. 考虑数据源的厚薄度 。

    由于各个数据源在不同时间点开始采集,因此数据的厚薄程度存在差异。在构建时间切片特征时也需注意这一点—— 明确观察期窗口是否有效。例如,数据采集时间是从2018-01-01开始的,如果要统计最近30天内的RFM特征,那么有效的观察期窗口就是30天,有效的观察点(样本)就只能从2018-02-01开始,2018年1月份的样本由于观察期不满30天就无法统计到有效的特征。在样本特征回溯中,笔者经常看到某些同学犯这个错误。

    因此,如果某块数据在最近才开始采集,那也不得不舍弃。

    3. 考虑模型的应用场景。

    特征是为模型服务的。因此,在构建关系特征前,我们需要明确模型的应用场景,为模型“量身定制”。如果计划用在风险定价(A卡模型)环节,那么某些在A卡之后的环节才能获取的数据就无法使用。很多建模经验不足的同学,不管三七二十一,直接把所有可能使用的数据拿来测算,根本没考虑过线上如何使用的问题。最后,要么离线测算结果就不佳,要么最后根本无法上线使用。

    👉 建议 :罗列一份数据源质量分析清单,笔者在整理中的结果表示例:

    图2 - 数据源质量分析清单

    Part 2. 如何构建边关系?

    我们可以从 关系强弱(边权重) 和 覆盖率(边数量)两个维度来衡量数据源对定义边的重要性。由于各家公司对数据源获取情况各异,在此就只对目前市场上的数据源分析关系强弱。

    1. 运营商数据 :关系⭐️⭐️⭐️⭐️⭐️。可根据最近N天内通话记录次数等指标来衡量两个人之间的亲密程度。

    2. 设备数据 :关系⭐️⭐️⭐️⭐️。可根据最近N天内是否共同使用过一台设备、是否共同使用过同一个Wi-Fi等指标衡量。

    3. 通讯录数据 :关系⭐️⭐️⭐️⭐️⭐️。通讯录中所存号码的备注信息可判断亲密度。

    4. 紧急联系人数据 :关系⭐️⭐️⭐️⭐️⭐️。通常情况下,用户所填的紧急联系人会是自己的家人、同事、亲友等。

    5. 电商地址数据 :关系⭐️⭐️⭐️。根据地址相似度比对来判断用户之间存在的关系。由于地址数据需要提前规整,处理难度大。

    6. 运营老客拉新数据 :关系⭐️⭐️⭐️。产品运营活动中常会推出各种老客拉新活动以实现用户增长。链接传播渠道一般是微信。因此被拉的新客与老客之间通常是微信朋友关系。

    7. 银行卡转账记录数据 :关系⭐️⭐️⭐️。通常情况下,覆盖率较低。

    8. LBS地址位置数据 :关系⭐️。由于设备经纬度数据采集误差和位置时效性强的问题,这块数据对于衡量用户关系较弱。

    9. 其他数据 。

    在罗列出所有可用于构建边关系的数据后,我们又会面临一个问题:每个数据源就可以提取出多个边关系,那么就可以构造多个子网络,我们该如何处理这些边?

    可以有以下2种做法:

    • 特征层融合 :对每个子网络独立构建图特征,在特征层中融合。该方案在实践中的优点在于方便直观,可并行;缺点在于工作量大,如果有a个数据源,每个数据源可提取b种关系的边,又有c个节点特征,此时就会衍生出 a ✖ b ✖ c个特征。在建模中,也不可能对这所有的特征入模,需要开展大量的特征筛选工作。

    • 网络层融合 :该方案在实践中的优点在于将各类强边弱边融合在一起(w1 * e1 + w2 * e2 + w3 * e3 + ...),使边的内在含义更为丰富,边的覆盖率得到提升;缺点在于无法很好对融合权重赋值,前期可考虑专家经验拍定,后期优化可以考虑结合具体的target来训练估计。

    图3 - 特征层融合 VS 网络层融合

    Part 3. 如何使用节点特征?

    一般情况下,节点特指用户(当然也可以是手机号、设备等)。我们可以通过RFM模型批量生产出大量时间切片特征,或者根据业务理解构造出强业务特征。

    而关系网络的一个价值在于:利用节点所在群体(可以是一度、二度,或者社区发现算法挖掘出的簇)中的邻居节点特征,通过关系网络传播到某个节点上。

    如果节点特征表对邻居节点的覆盖率低(通常情况下,邻居节点数 >> 特征表中节点数),那么网络传播过程将会大打折扣。试想,一个下单用户好不容易找出100个一度邻居,然而只有3个邻居节点特征变量有值,其余邻居节点特征都为null,那么通过传播(对邻居节点求mean、max、min、sum聚合操作)后,该下单用户仅仅利用了3个邻居的信息。

    👉因此, 节点特征表中的用户量决定了特征传播的上限。

    接下来,我们就会考虑如何去扩充节点特征表中的用户量?最直接的做法——我们把历史全量用户的特征都拿过来用不就行了?但需要注意的是,用户特征具有时效性。 所谓 时效性,是指用户特征是否能有效反映用户最近的风险。 因此,贪多反而会引起特征质量下降,两者需要做权衡。

    如果该特征的稳定性比较好(反映用户稳定属性的特征,如性格、信用等),那么就可以尽可能使用历史存量数据。也就是说,设定节点特征表的有效期为1年(或更长),在有效期内的历史全量节点特征,我们都可以拿来传播。例如信用卡额度,通常认为一个用户在1年内的额度不会发生太大变化。

    反之,对于时效性强的特征,我们宁可牺牲覆盖率,也要缩短有效期,目的是为了保证特征的时效性。例如同盾这类的多头借贷数据,随着接入和退出机构的动态变化,半年前的同盾数据可能已经无法反映用户当前的借贷风险,若直接使用反而会引入噪声。

    对于某个节点(用户)特征表在不同时间点存在多条记录的,可以考虑以下策略:

    1. 取最近一条,保证特征的时效性最强。

    2. 参考遗忘曲线,对不同时间点的特征进行加权融合。

    图4 - 特征有效期和取用策略

    Part 4. 如何使用存量数据和增量数据?

    1. 增量数据:一般指实时数据,可直接计算一度关系的边权重。例如,如果用户申贷下单时必须导运营商数据,那么就可以根据实时导入的通话记录来构建图关系网络。这是最新的数据,自然更能反映用户此时的风险。

    2. 存量数据:在一些场景下,我们不得不依赖于使用存量数据。

    • 场景1: 前期业务流程中要求用户强制导运营商数据,后期变成用户可选提额项。

    • 场景2: 某块数据之前都是在定价环节才调用,而此次建模希望用在额度环节(在定价之前)。

    此时,我们该如何使用呢?考虑到对于某些新用户,虽然其自己没有导入运营商这类的关系数据,但是可能其身边的人在历史申贷时就已经导入过资料。那么,在历史关系网络中,该新用户就被囊括在其中。因此,存量数据也有其使用价值。

    同样的道理,我们需要考虑关系网络也具有时效性。某些历史关系网络比较稳定,比如家人关系,那么就可以使用较久版本的,否则就只能用最近的,甚至不使用。

    图 5 - 关系网络有效期

    Part 5. 如何实时上线?

    据笔者所知,目前线上计算二度关系的技术门槛仍然很高,因此我们在实时计算时考虑一度关系(应该也能达到80%的baseline效果,剩下的20%可能就需要靠高阶关系了),二度关系甚至更为复杂的社区发现算法则放在离线计算。因此,在实时构建一度关系和离线提供一度和多度关系的相互补充下,将会得到相对于只用实时一度关系更好的效果。

    节点特征表则可通过离线提前计算,并将有效期范围的不同观察点的节点特征汇总成一张表,导入到线上数据库。

    对于实时订单,可实时构建出关系网络,取出一度联系人和相应的边权重。并从节点特征表中取出邻居用户的特征,进而传播扩散,生成实时图特征。

    Part 6. 如何验证关系特征的效果?

    在风控建模中,评估特征性能最为关注稳定性和区分度。稳定性可用PSI(群体稳定性)来计算,而区分度可用IV(信息量)来衡量。再次强调稳定性在风控中的重要性。

    因此,可按照以下步骤来快速评估:

    1. 考虑先回溯足够多的样本,通常是要求几个月以能评估稳定性

    2. 先评估特征的区分度。对于IV很高的特征,再次确认取数逻辑中是否用到未来信息。

    3. 筛选出区分度较强的特征,进一步评估稳定性。

    Part 7. 如何去优化关系特征?

    1. 引入边权重,而不仅仅是有关联的一度用户。

    2. 离线增加更多关系较强但覆盖率较低的边,以起到补充更多一度联系人的作用。

    3. 节点特征增加更多维度。本质还是在于特征传播,因此加有效的节点特征是最重要的。

    4. 利用样本和target变量对关系网络融合权重参数估计,以期达到更合理的网络融合。

    展开全文
  • 1.反欺诈埋点的这些页面,风控人都应知悉 2.恶意攻击防范之信用卡业务的计数器反欺诈 3.数据埋点与设备指纹/设备反欺诈的区别与联系是什么? 4.反欺诈之设备指纹(上篇) 5.反欺诈之设备指纹(下篇) 本文再介绍下跟...

    反欺诈是目前大家比较关注的内容,在知识星球社区,关于反欺诈的相关的内容也不少,相关的课题如下:
    1.反欺诈埋点的这些页面,风控人都应知悉

    2.恶意攻击防范之信用卡业务的计数器反欺诈

    3.数据埋点与设备指纹/设备反欺诈的区别与联系是什么?

    4.反欺诈之设备指纹(上篇)

    5.反欺诈之设备指纹(下篇)

    本文再介绍下跟反欺诈相关的内容,在风控领域欺诈风险与信用风险是需要区分的,虽然两者有些许不同之处,一般用还款意愿跟还款能力去区分两者,但总体的策略制定流程是有相通之处,比如看看反欺诈策略的制定流程,其跟信用的策略制定大致相通:

    反欺诈策略制定流程:
    • 定义欺诈:根据产品,确定坏样本的计算逻辑。
    • 抓取样本:根据定义欺诈逻辑,抓取库中相关样例的原始变量字段。
    • 筛选变量:统计原始变量,衍生新变量,计算iv,查看分布,确定最终进入规则的变量。
    • 策略制定:根据变量值的分布,盈利模型及预计总通过率,判断最优拒绝,制定预期数据变化。
    • 上线监控:规则上线后,对规则变量的分布占比进行监控,将通过率与预期数据进行对比。
    • 数据反馈:有贷后表现之后,判断该规则的价值,再调整时可用Abtest进行测试。

    在具体的目标变量定义中,可以了解,其目标变量的定义也不是绝对的。常规上,比如常规上我们用dpd90+去衡量信用风险的坏,用首逾dpd去衡量欺诈风险的坏;
    然而在实际中的定义中,常常会发现去定义目标的坏,跟实际业务相关性太大,这里常常引入二维矩阵+盈利测算去衡量一个目标的好坏:
    在这里插入图片描述
    在以上欺诈的便签制定完成后,便是各种模型与策略共同起舞的阶段,欺诈在反欺诈端中,设备指纹就是最重要指标内容,以下我们详细来阐述下设备指纹相关内容:

    一.设备指纹的底层逻辑:
    设备指纹,是用设备的显著性特征,生成该设备的唯一标识,简单来说就是为了对业务分析有所区分。设计设备指纹一般是采用硬件数据和业务数据的组合方式,在 Web 和 APP有不同的生成逻辑。例如,手机在生产过程中都拥有一个唯一的 IMEI 编号,用于唯一标识该台设备;电脑的网卡,在生产过程中会被赋予唯一的MAC地址。可以将这些设备参数视为设备指纹的显著性特征,这对于设备的区分有很大的帮助。

    二.设备指纹编码原则:

    1. 客户端尽量保证唯一性和一致性。
    2. 服务端需要保证严格唯一性和一致性。
    3. 客户端和服务端设备ID尽量保持一致。
    4. 生成的deviceid具有加密解密特性和可校验性,具备一定的防伪造。

    设备指纹:
    在这里插入图片描述

    三.设备指纹相关的策略:
    关于设备指纹在反欺诈中的应用,番茄风控给各位同学准备一节干货实操课程,关于相关的策略指标,大家请看这个内容:
    在这里插入图片描述
    四.设备指纹在app与h5中的应用
    近几年从事风控的童鞋们而言,接触更多的是H5的授信模式,对于APP模式和H5模式的区别比较模糊,本次分享将从产品角度和风控角度全面剖析两种模式的区别与利弊。
    我们需要先明白APP和H5是什么,两者都属于一种载体,app类似于实体载体,可承载很多不同的功能点,从各大应用商城随时进行下载,H5类似于虚拟载体,是网页链接,可以在不同环境下打开,可以部署在各个场景下,如其他公司app、微信、支付宝、短信、网页、贷款超市等等。
    而从风控角度而言,H5授信模式无疑是弊大于利,以反欺诈角度而言,H5模式存在目前技术无法获取的信息,如无法获取手机设备信息,无从判断是否为虚拟机、是否为同一设备重复申请等欺诈情况。也无法获取手机通讯录,无法对客户通讯录进行一个分析及排查,也无法作为催收的后备信息。
    同时也存在信息获取准确率的问题,如定位信息,定位信息通常分为GPS定位、WIFI定位、LBS定位,三种定位的区别在于一个是手机设备的定位情况,GPS定位是通过手机自带网络信号发射位置来定位,wifi定位是通过手机连接wifi,通过wifi信号的ip地址进行定位,LBS定位则是通过手机信号源搜索基站,通过基站的位置进行定位,H5页面而言较难获取到LBS定位,而GPS定位、wifi定位信息都比较容易被篡改(特别是安卓系统),从而导致反欺诈手段或准入政策失效。
    对于反欺诈的另一个考验则来自于验真,而验真手段而言APP的稳定性和准确性普遍都高于H5,如刷脸验证,刷脸验证一般认证两个信息,一是认证是否为活体,二是验真是否为本人,是否为本人的验证时通过与公安系统身份证上的照片信息进行比对。活体验证而言,APP可以做的动作很多,并且可以定制不同的动作类型或者随机动作进行验证,而H5的活体验证一般动作固定,而且是视频录制后在判断是否为活体,非真正意义上的实时活体验证,也增加了欺诈的可能性。

    以上,关于反欺诈中相关的体系化的内容,番茄风控准备了一个体系化的课程——反欺诈训练营跟大家好好讲解其中的反欺诈课程,详细可关注:
    在这里插入图片描述

    ~原创文章

    end

    展开全文
  • 风控业务背景常规RFM时间切片统计特征侧重于纵向维度量化用户风险,而关系网络特征则从横向维度来评估。纵向是指同一用户在不同时间段上的行为异常风险;横向是指在同一个时间段里聚集的不同用户放...
  • 要将任意维度的历史数据(可能半年或更久)实时统计出结果,需要将数据提前安装特殊结果准备好(由于事件的维度数量不固定的,选取统计的维度也是随意的,所以不是在关系数据库中建几个索引就能搞定的),需要利用...
  • 阿里云关系网络分析软件介绍Graph Analytics, I+是基于关系网络的大数据可视化分析平台,在阿里巴巴、蚂蚁金服集团内广泛应用于反欺诈、反作弊、反洗钱等风控业务,面向公安、税务、海关、银行、保险、互联网等提供...
  • 大数据智能风控

    千次阅读 2021-01-27 18:07:24
    决策引擎担任着智能风控平台的核心角色,在当代的互联网金融浪潮中至关重要,本文主要讲解了现在市面上主流风控决策引擎产品包含的核心功能模块,其中主要是规则、评分卡、表达式、模型、决策流等功能模块。...
  • 爱奇艺风控团队负责公司全业务风险防控,面向业务提供通用与定制相结合的一站式解决方案,为业务赋能,加强业务核心竞争力。风控中台提供涵盖账户安全、会员安全、内容生态保护、拉新裂变反作弊、营销...
  • 本文是对《智能风控典藏版合集》中涉及到的关系网络及图谱、图算法作的总结笔记,涉及到的文章有《图算法在网络黑产挖掘中的思考》、《Frauder算法在京东关系网络反欺诈中的应用》、《关系图谱在贝壳找房风控体系的...
  • 对于金融企业来说,风控模型和风控体系需要非常有经验的金融从业人士进行把控。比如,银行风控模型的出发点主要是衡量借款方的还款能力,一般来讲,模型包含了两部分的评判,即客观性的和主观性的。客观性的评判主要...
  • 近年来互联网金融科技的爆发,特别是网络信贷业务的快速增长,一方面降低了金融领域的信息不对称性,推动了普惠金融的发展,另一方面也滋生了诸多新型的欺诈手段,金融欺诈风险不断升级。在征信体系和数字身份体系不...
  • 互联网业务风控

    千次阅读 2021-02-19 19:19:15
    互联网业务风控 1. 不同场景下的业务风控 1.1 账户业务风控 1.1.1账户安全 账号安全是所有强账号体系应用的基础,强账号体系,如电商、网游、第三方支付、社交网络、即时通讯等;是需要登录后产生数据和交互的...
  • 导读:大数据风控业务的开展依赖智能风控平台,智能风控平台的技术基础是大数据技术,智能风控系统技术架构也是以大数据系统技术架构为基础演进而来的。智能风控系统技术架构主要分为访问层、展现层、系...
  • 反欺诈技术揭秘-设备指纹VS关系网络模型   (2017-05-12 10:23:52) 转载▼ 标签:  设备指纹   关系网络   反欺诈   神经网络模型 分类: 风控 文章来源:...
  • 常见风控策略

    千次阅读 2020-09-14 11:17:09
    #风控 #贷款 #反欺诈 引言 了解金融风控一共有3块内容: 一是了解风控中金融常见业务规则的类型(大概有个认知即可); 二是了解对应架构是如何的(以携程为例,简单了解即可); 三是对一些金融中常用的策略模型...
  • 智能风控背景

    千次阅读 2020-11-07 15:07:57
    金融科技 3.5:亚洲和非洲新兴市场的 Fintech1.2 金融科技正深刻地改变和塑造着金融业态1.3 新兴科技不断强化金融科技的应用能力1.4 金融风险控制面临着前所未有的挑战1.5 智能风控和评分卡 1.金融科技介绍 从定义上...
  • 作者:李晨、TigerGraph高级解决方案经理 ...风控就是攻守双方技术的进化史 随着互联网金融的发展,传统金融机构一边享受着金融科技带来的效率提升和服务边界的扩大,另一边随着科技的发展,“黑产”也从盗...
  • 摘要: I+关系网络分析是以OLP...目前,I+关系网络分析已在阿里巴巴、蚂蚁金服集团内广泛应用于反欺诈、反作弊、反洗钱等风控业务。点此查看原文:http://click.aliyun.com/m/43090/近期,阿里云发布I+关系网络分析...
  • 互联网金融风控模型大全

    千次阅读 2020-11-05 14:28:55
    目前市面主流的风控模型 1、互联网金融前10名排行榜(数据截止日期2017-09-12) 互联网金融公司排名分别是蚂蚁金服、陆金所、京东金融、苏宁金融、百度金融、腾讯理财通、宜信、钱大掌柜、万达金融和网易理财。 1.1 ...
  • 提到社交网络分析,推荐系统、风控模型这些名词,相信你并不陌生,社交网络分析无非是 Pandas+Matplotlib,推荐系统大概率是余弦相似性、协同过滤,风控则被 LR...
  • 智能风控平台核心之风控决策引擎(四) 本文摘要:风控报告、模型监控、接口管理 本文适合阅读人群:金融产品、策略模型、研发 停更大半年我没有跑,只是在专注地筹备接下来的更多优质内容,在此给长期支持的朋友们...
  • 支付风控学习笔记

    千次阅读 2020-11-22 19:44:29
      最近看了一些支付风控方面的文章,顺便了解一下支付风控的流程,于是将看的几篇文章整理...  对于传统金融系统,行业标准要求通过专线进行网络连接,和互联网网络进行隔离,最大程度降低账户风险。对于第三方支.
  • 电商实时交易风控系统

    万次阅读 2017-04-10 22:53:12
    电商实时交易风控系统 2、课程目标 1、了解电子商务交易的风险点 2、了解电子商务交易中风险点的处理策略 3、利用Storm技术开发基于规则判定的风控系统 4、掌握企业中风控系统的一般架构和业务流程 3、背景...
  • 风控建模算法

    2021-09-17 14:49:34
    原理 通过一系列的线性变换以及非线性变换,并基于反向传播、梯度下降不断更新参数,最终完成从X到Y的映射关系。 2.损失函数 MAE、MSE、对数损失等 3.迭代方式 梯度下降、前后向传播 4.特点 准确率高,理论上,足够...
  • 风控体系的一般架构

    万次阅读 2018-08-31 09:59:57
    谈到互联网金融,风控体系是绕不开的一个话题。那么,什么是风控体系? 简单地说,风控体系就是能够达成风险管理量化目标、边界清晰、结构清楚、动态持续的风险管理体系。 量化目标:逾期率、坏账率可控是基本要求...
  • 全面了解风控数据体系

    千次阅读 多人点赞 2020-06-28 14:04:09
    社交行为画像: 设备指纹画像: 朋友圈风险画像: 2.1.5 选择风控数据 2.1.5.1 数据源选择 数据 数据 应用 用户进件提供 个人信息 个人身份验证,基本信息确认 联系人信息 关系网络 设备信息 设备画像 内部系统生产...
  • 全面了解风控策略体系

    万次阅读 多人点赞 2020-06-28 14:09:48
    在识别群体风险上,则需要我们具备能够快速挖掘关系网络,总结关系规则的基础工具,在生产的时候我们又需要去保证能够实时的应用这些反欺诈规则进行团伙或者用户关联等的风险的评判。 个体识别:个人识别是用科学的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,011
精华内容 2,804
关键字:

风控关系网络