精华内容
下载资源
问答
  • “本文业务角度分享了风控业务中构建关系特征的一些实践经验,包括数据源分析,关系网络和特征的构建,特征性能的评估以及线上方案的落实。”作者:求是汪在路上来源:知乎专栏 风控模型算法。编辑...

     本文业务角度分享了风控业务中构建关系特征的一些实践经验,包括数据源分析,关系网络和特征的构建,特征性能的评估以及线上方案的落实。

    者:求是汪在路上

    来源:知乎专栏 风控模型算法。

    编辑:happyGirl

    风控业务背景

    常规RFM时间切片统计特征侧重于纵向维度量化用户风险,而关系网络特征则从横向维度来评估。纵向是指同一用户在不同时间段上的行为异常风险;横向是指在同一个时间段里聚集的不同用户放在一起评估风险。因此,关系网络特征可作为常规RFM特征的一个有力补充,为风控模型带来可预见的增量效果。

    芝麻信用分中的人脉关系维度可以给我们带来很多启发,其又细分为人脉圈稳定性、社交影响力指数和信用环境指数三个子指标。其中信用环境指数是本文主要参考学习的方向。

    图1 - 芝麻信用评分维度之人脉关系

    本文不围绕各种复杂的社区发现算法展开,只从业务角度分享下构建关系特征的一些实践经验。关系网络中最重要的两部分无非就是——边(edge)和节点(node)。围绕这两点,我们可以考虑几个问题:如何分析可用数据?如何根据已有数据源来构建关系网络?如何构建关系特征?如何评估关系特征的性能?如何落实上线方案?

    目录
    Part 1. 如何分析可用数据?
    Part 2. 如何构建边关系?
    Part 3. 如何使用节点特征?
    Part 4. 如何使用存量数据和增量数据?
    Part 5. 如何实时上线?
    Part 6. 如何验证关系特征的效果?
    Part 7. 如何去优化关系特征?
    致谢
    版权声明

    Part 1. 如何分析可用数据?

    1. 考虑数据源的稳定性。

    在风控中, 稳定性压倒一切。数据源是构建特征的前提,如果数据源采集上就不稳定,必然导致特征波动。那么为了调研数据源采集情况,我们该咨询哪些人员,以及关注哪些问题呢?以下是笔者的一些实践建议:

    • 信贷产品设计人员 :了解产品页面跳转流程,包括:在哪个页面将会要求用户导入资料?需要用户授权同意哪些数据采集协议?新用户相对于老用户会少哪些数据?

    • 外部数据对接开发人员 :外部数据是其他数据公司所提供的,从而可能存在一些不确定性。例如,由于输出变量不稳定而被使用方下线,或者由于协议到期而被提供商下线。需要明确:外部数据在哪个环节(额度、定价、支用)调用?覆盖哪些产品和客群?外部数据接口调用的稳定性?

    • 风控策略人员 :了解风控流程和未来业务调整计划。风控流程图帮助你理解在整个风控链路上数据采集和风控策略之间的映射关系;业务调整计划帮助你排除一些未来不可用数据。例如,为提高用户转化率或合规性要求,未来计划把某些用户数据 由必导项改为自选项 ,那么可预见这块数据未来的采集率将会逐渐下降。如果对这块数据依赖性高,就会导致模型不稳定。此时,我们就不得不放弃实时数据的使用,或者考虑分箱等方式来平滑影响,或者考虑如何利用存量历史数据。

    ???? 建议 :可分产品线、时间粒度(天/月)等维度统计数据的缺失率,以此分析数据的稳定性。

    2. 考虑数据源的厚薄度

    由于各个数据源在不同时间点开始采集,因此数据的厚薄程度存在差异。在构建时间切片特征时也需注意这一点—— 明确观察期窗口是否有效。例如,数据采集时间是从2018-01-01开始的,如果要统计最近30天内的RFM特征,那么有效的观察期窗口就是30天,有效的观察点(样本)就只能从2018-02-01开始,2018年1月份的样本由于观察期不满30天就无法统计到有效的特征。在样本特征回溯中,笔者经常看到某些同学犯这个错误。

    因此,如果某块数据在最近才开始采集,那也不得不舍弃。

    3. 考虑模型的应用场景。

    特征是为模型服务的。因此,在构建关系特征前,我们需要明确模型的应用场景,为模型“量身定制”。如果计划用在风险定价(A卡模型)环节,那么某些在A卡之后的环节才能获取的数据就无法使用。很多建模经验不足的同学,不管三七二十一,直接把所有可能使用的数据拿来测算,根本没考虑过线上如何使用的问题。最后,要么离线测算结果就不佳,要么最后根本无法上线使用。

    ???? 建议 :罗列一份数据源质量分析清单,笔者在整理中的结果表示例:

    图2 - 数据源质量分析清单

    Part 2. 如何构建边关系?

    我们可以从 关系强弱(边权重)覆盖率(边数量)两个维度来衡量数据源对定义边的重要性。由于各家公司对数据源获取情况各异,在此就只对目前市场上的数据源分析关系强弱。

    1. 运营商数据 :关系⭐️⭐️⭐️⭐️⭐️。可根据最近N天内通话记录次数等指标来衡量两个人之间的亲密程度。

    2. 设备数据 :关系⭐️⭐️⭐️⭐️。可根据最近N天内是否共同使用过一台设备、是否共同使用过同一个Wi-Fi等指标衡量。

    3. 通讯录数据 :关系⭐️⭐️⭐️⭐️⭐️。通讯录中所存号码的备注信息可判断亲密度。

    4. 紧急联系人数据 :关系⭐️⭐️⭐️⭐️⭐️。通常情况下,用户所填的紧急联系人会是自己的家人、同事、亲友等。

    5. 电商地址数据 :关系⭐️⭐️⭐️。根据地址相似度比对来判断用户之间存在的关系。由于地址数据需要提前规整,处理难度大。

    6. 运营老客拉新数据 :关系⭐️⭐️⭐️。产品运营活动中常会推出各种老客拉新活动以实现用户增长。链接传播渠道一般是微信。因此被拉的新客与老客之间通常是微信朋友关系。

    7. 银行卡转账记录数据 :关系⭐️⭐️⭐️。通常情况下,覆盖率较低。

    8. LBS地址位置数据 :关系⭐️。由于设备经纬度数据采集误差和位置时效性强的问题,这块数据对于衡量用户关系较弱。

    9. 其他数据

    在罗列出所有可用于构建边关系的数据后,我们又会面临一个问题:每个数据源就可以提取出多个边关系,那么就可以构造多个子网络,我们该如何处理这些边?

    可以有以下2种做法:

    • 特征层融合 :对每个子网络独立构建图特征,在特征层中融合。该方案在实践中的优点在于方便直观,可并行;缺点在于工作量大,如果有a个数据源,每个数据源可提取b种关系的边,又有c个节点特征,此时就会衍生出 a ✖ b ✖ c个特征。在建模中,也不可能对这所有的特征入模,需要开展大量的特征筛选工作。

    • 网络层融合 :该方案在实践中的优点在于将各类强边弱边融合在一起(w1 * e1 + w2 * e2 + w3 * e3 + ...),使边的内在含义更为丰富,边的覆盖率得到提升;缺点在于无法很好对融合权重赋值,前期可考虑专家经验拍定,后期优化可以考虑结合具体的target来训练估计。

    图3 - 特征层融合 VS 网络层融合

    Part 3. 如何使用节点特征?

    一般情况下,节点特指用户(当然也可以是手机号、设备等)。我们可以通过RFM模型批量生产出大量时间切片特征,或者根据业务理解构造出强业务特征。

    而关系网络的一个价值在于:利用节点所在群体(可以是一度、二度,或者社区发现算法挖掘出的簇)中的邻居节点特征,通过关系网络传播到某个节点上。

    如果节点特征表对邻居节点的覆盖率低(通常情况下,邻居节点数 >> 特征表中节点数),那么网络传播过程将会大打折扣。试想,一个下单用户好不容易找出100个一度邻居,然而只有3个邻居节点特征变量有值,其余邻居节点特征都为null,那么通过传播(对邻居节点求mean、max、min、sum聚合操作)后,该下单用户仅仅利用了3个邻居的信息。

    ????因此, 节点特征表中的用户量决定了特征传播的上限。

    接下来,我们就会考虑如何去扩充节点特征表中的用户量?最直接的做法——我们把历史全量用户的特征都拿过来用不就行了?但需要注意的是,用户特征具有时效性。 所谓 时效性,是指用户特征是否能有效反映用户最近的风险。 因此,贪多反而会引起特征质量下降,两者需要做权衡。

    如果该特征的稳定性比较好(反映用户稳定属性的特征,如性格、信用等),那么就可以尽可能使用历史存量数据。也就是说,设定节点特征表的有效期为1年(或更长),在有效期内的历史全量节点特征,我们都可以拿来传播。例如信用卡额度,通常认为一个用户在1年内的额度不会发生太大变化。

    反之,对于时效性强的特征,我们宁可牺牲覆盖率,也要缩短有效期,目的是为了保证特征的时效性。例如同盾这类的多头借贷数据,随着接入和退出机构的动态变化,半年前的同盾数据可能已经无法反映用户当前的借贷风险,若直接使用反而会引入噪声。

    对于某个节点(用户)特征表在不同时间点存在多条记录的,可以考虑以下策略:

    1. 取最近一条,保证特征的时效性最强。

    2. 参考遗忘曲线,对不同时间点的特征进行加权融合。

    图4 - 特征有效期和取用策略

    Part 4. 如何使用存量数据和增量数据?

    1. 增量数据:一般指实时数据,可直接计算一度关系的边权重。例如,如果用户申贷下单时必须导运营商数据,那么就可以根据实时导入的通话记录来构建图关系网络。这是最新的数据,自然更能反映用户此时的风险。

    2. 存量数据:在一些场景下,我们不得不依赖于使用存量数据。

    • 场景1: 前期业务流程中要求用户强制导运营商数据,后期变成用户可选提额项。

    • 场景2: 某块数据之前都是在定价环节才调用,而此次建模希望用在额度环节(在定价之前)。

    此时,我们该如何使用呢?考虑到对于某些新用户,虽然其自己没有导入运营商这类的关系数据,但是可能其身边的人在历史申贷时就已经导入过资料。那么,在历史关系网络中,该新用户就被囊括在其中。因此,存量数据也有其使用价值。

    同样的道理,我们需要考虑关系网络也具有时效性。某些历史关系网络比较稳定,比如家人关系,那么就可以使用较久版本的,否则就只能用最近的,甚至不使用。

    图 5 - 关系网络有效期

    Part 5. 如何实时上线?

    据笔者所知,目前线上计算二度关系的技术门槛仍然很高,因此我们在实时计算时考虑一度关系(应该也能达到80%的baseline效果,剩下的20%可能就需要靠高阶关系了),二度关系甚至更为复杂的社区发现算法则放在离线计算。因此,在实时构建一度关系和离线提供一度和多度关系的相互补充下,将会得到相对于只用实时一度关系更好的效果。

    节点特征表则可通过离线提前计算,并将有效期范围的不同观察点的节点特征汇总成一张表,导入到线上数据库。

    对于实时订单,可实时构建出关系网络,取出一度联系人和相应的边权重。并从节点特征表中取出邻居用户的特征,进而传播扩散,生成实时图特征。

    Part 6. 如何验证关系特征的效果?

    在风控建模中,评估特征性能最为关注稳定性和区分度。稳定性可用PSI(群体稳定性)来计算,而区分度可用IV(信息量)来衡量。再次强调稳定性在风控中的重要性。

    因此,可按照以下步骤来快速评估:

    1. 考虑先回溯足够多的样本,通常是要求几个月以能评估稳定性

    2. 先评估特征的区分度。对于IV很高的特征,再次确认取数逻辑中是否用到未来信息。

    3. 筛选出区分度较强的特征,进一步评估稳定性。

    Part 7. 如何去优化关系特征?

    1. 引入边权重,而不仅仅是有关联的一度用户。

    2. 离线增加更多关系较强但覆盖率较低的边,以起到补充更多一度联系人的作用。

    3. 节点特征增加更多维度。本质还是在于特征传播,因此加有效的节点特征是最重要的。

    4. 利用样本和target变量对关系网络融合权重参数估计,以期达到更合理的网络融合。

    关于作者

    在某互联网金融公司从事风控建模、反欺诈、数据挖掘等方面工作,目前致力于将实践经验固化分享,量化成长轨迹。

    喜欢的话点个在看吧????

    展开全文
  • 因此,关系网络特征可作为常规RFM特征的一个有力补充,为风控模型带来可预见的增量效果。 芝麻信用分中的人脉关系维度可以给我们带来很多启发,其又细分为人脉圈稳定性、社交影响力指数和信用环境指数三...

    风控业务背景

    常规RFM时间切片统计特征侧重于纵向维度量化用户风险,而关系网络特征则从横向维度来评估。纵向是指同一用户在不同时间段上的行为异常风险;横向是指在同一个时间段里聚集的不同用户放在一起评估风险。因此,关系网络特征可作为常规RFM特征的一个有力补充,为风控模型带来可预见的增量效果。

    芝麻信用分中的人脉关系维度可以给我们带来很多启发,其又细分为人脉圈稳定性、社交影响力指数和信用环境指数三个子指标。其中信用环境指数是本文主要参考学习的方向。

    图1 - 芝麻信用评分维度之人脉关系

    本文不围绕各种复杂的社区发现算法展开,只从业务角度分享下构建关系特征的一些实践经验。关系网络中最重要的两部分无非就是——边(edge)和节点(node)。围绕这两点,我们可以考虑几个问题:如何分析可用数据?如何根据已有数据源来构建关系网络?如何构建关系特征?如何评估关系特征的性能?如何落实上线方案?

    目录
    Part 1. 如何分析可用数据?
    Part 2. 如何构建边关系?
    Part 3. 如何使用节点特征?
    Part 4. 如何使用存量数据和增量数据?
    Part 5. 如何实时上线?
    Part 6. 如何验证关系特征的效果?
    Part 7. 如何去优化关系特征?
    致谢
    版权声明

    Part 1. 如何分析可用数据?

    1. 考虑数据源的稳定性。

    在风控中, 稳定性压倒一切。数据源是构建特征的前提,如果数据源采集上就不稳定,必然导致特征波动。那么为了调研数据源采集情况,我们该咨询哪些人员,以及关注哪些问题呢?以下是笔者的一些实践建议:

    • 信贷产品设计人员 :了解产品页面跳转流程,包括:在哪个页面将会要求用户导入资料?需要用户授权同意哪些数据采集协议?新用户相对于老用户会少哪些数据?

    • 外部数据对接开发人员 :外部数据是其他数据公司所提供的,从而可能存在一些不确定性。例如,由于输出变量不稳定而被使用方下线,或者由于协议到期而被提供商下线。需要明确:外部数据在哪个环节(额度、定价、支用)调用?覆盖哪些产品和客群?外部数据接口调用的稳定性?

    • 风控策略人员 :了解风控流程和未来业务调整计划。风控流程图帮助你理解在整个风控链路上数据采集和风控策略之间的映射关系;业务调整计划帮助你排除一些未来不可用数据。例如,为提高用户转化率或合规性要求,未来计划把某些用户数据 由必导项改为自选项 ,那么可预见这块数据未来的采集率将会逐渐下降。如果对这块数据依赖性高,就会导致模型不稳定。此时,我们就不得不放弃实时数据的使用,或者考虑分箱等方式来平滑影响,或者考虑如何利用存量历史数据。

    👉 建议 :可分产品线、时间粒度(天/月)等维度统计数据的缺失率,以此分析数据的稳定性。

    2. 考虑数据源的厚薄度 。

    由于各个数据源在不同时间点开始采集,因此数据的厚薄程度存在差异。在构建时间切片特征时也需注意这一点—— 明确观察期窗口是否有效。例如,数据采集时间是从2018-01-01开始的,如果要统计最近30天内的RFM特征,那么有效的观察期窗口就是30天,有效的观察点(样本)就只能从2018-02-01开始,2018年1月份的样本由于观察期不满30天就无法统计到有效的特征。在样本特征回溯中,笔者经常看到某些同学犯这个错误。

    因此,如果某块数据在最近才开始采集,那也不得不舍弃。

    3. 考虑模型的应用场景。

    特征是为模型服务的。因此,在构建关系特征前,我们需要明确模型的应用场景,为模型“量身定制”。如果计划用在风险定价(A卡模型)环节,那么某些在A卡之后的环节才能获取的数据就无法使用。很多建模经验不足的同学,不管三七二十一,直接把所有可能使用的数据拿来测算,根本没考虑过线上如何使用的问题。最后,要么离线测算结果就不佳,要么最后根本无法上线使用。

    👉 建议 :罗列一份数据源质量分析清单,笔者在整理中的结果表示例:

    图2 - 数据源质量分析清单

    Part 2. 如何构建边关系?

    我们可以从 关系强弱(边权重) 和 覆盖率(边数量)两个维度来衡量数据源对定义边的重要性。由于各家公司对数据源获取情况各异,在此就只对目前市场上的数据源分析关系强弱。

    1. 运营商数据 :关系⭐️⭐️⭐️⭐️⭐️。可根据最近N天内通话记录次数等指标来衡量两个人之间的亲密程度。

    2. 设备数据 :关系⭐️⭐️⭐️⭐️。可根据最近N天内是否共同使用过一台设备、是否共同使用过同一个Wi-Fi等指标衡量。

    3. 通讯录数据 :关系⭐️⭐️⭐️⭐️⭐️。通讯录中所存号码的备注信息可判断亲密度。

    4. 紧急联系人数据 :关系⭐️⭐️⭐️⭐️⭐️。通常情况下,用户所填的紧急联系人会是自己的家人、同事、亲友等。

    5. 电商地址数据 :关系⭐️⭐️⭐️。根据地址相似度比对来判断用户之间存在的关系。由于地址数据需要提前规整,处理难度大。

    6. 运营老客拉新数据 :关系⭐️⭐️⭐️。产品运营活动中常会推出各种老客拉新活动以实现用户增长。链接传播渠道一般是微信。因此被拉的新客与老客之间通常是微信朋友关系。

    7. 银行卡转账记录数据 :关系⭐️⭐️⭐️。通常情况下,覆盖率较低。

    8. LBS地址位置数据 :关系⭐️。由于设备经纬度数据采集误差和位置时效性强的问题,这块数据对于衡量用户关系较弱。

    9. 其他数据 。

    在罗列出所有可用于构建边关系的数据后,我们又会面临一个问题:每个数据源就可以提取出多个边关系,那么就可以构造多个子网络,我们该如何处理这些边?

    可以有以下2种做法:

    • 特征层融合 :对每个子网络独立构建图特征,在特征层中融合。该方案在实践中的优点在于方便直观,可并行;缺点在于工作量大,如果有a个数据源,每个数据源可提取b种关系的边,又有c个节点特征,此时就会衍生出 a ✖ b ✖ c个特征。在建模中,也不可能对这所有的特征入模,需要开展大量的特征筛选工作。

    • 网络层融合 :该方案在实践中的优点在于将各类强边弱边融合在一起(w1 * e1 + w2 * e2 + w3 * e3 + ...),使边的内在含义更为丰富,边的覆盖率得到提升;缺点在于无法很好对融合权重赋值,前期可考虑专家经验拍定,后期优化可以考虑结合具体的target来训练估计。

    图3 - 特征层融合 VS 网络层融合

    Part 3. 如何使用节点特征?

    一般情况下,节点特指用户(当然也可以是手机号、设备等)。我们可以通过RFM模型批量生产出大量时间切片特征,或者根据业务理解构造出强业务特征。

    而关系网络的一个价值在于:利用节点所在群体(可以是一度、二度,或者社区发现算法挖掘出的簇)中的邻居节点特征,通过关系网络传播到某个节点上。

    如果节点特征表对邻居节点的覆盖率低(通常情况下,邻居节点数 >> 特征表中节点数),那么网络传播过程将会大打折扣。试想,一个下单用户好不容易找出100个一度邻居,然而只有3个邻居节点特征变量有值,其余邻居节点特征都为null,那么通过传播(对邻居节点求mean、max、min、sum聚合操作)后,该下单用户仅仅利用了3个邻居的信息。

    👉因此, 节点特征表中的用户量决定了特征传播的上限。

    接下来,我们就会考虑如何去扩充节点特征表中的用户量?最直接的做法——我们把历史全量用户的特征都拿过来用不就行了?但需要注意的是,用户特征具有时效性。 所谓 时效性,是指用户特征是否能有效反映用户最近的风险。 因此,贪多反而会引起特征质量下降,两者需要做权衡。

    如果该特征的稳定性比较好(反映用户稳定属性的特征,如性格、信用等),那么就可以尽可能使用历史存量数据。也就是说,设定节点特征表的有效期为1年(或更长),在有效期内的历史全量节点特征,我们都可以拿来传播。例如信用卡额度,通常认为一个用户在1年内的额度不会发生太大变化。

    反之,对于时效性强的特征,我们宁可牺牲覆盖率,也要缩短有效期,目的是为了保证特征的时效性。例如同盾这类的多头借贷数据,随着接入和退出机构的动态变化,半年前的同盾数据可能已经无法反映用户当前的借贷风险,若直接使用反而会引入噪声。

    对于某个节点(用户)特征表在不同时间点存在多条记录的,可以考虑以下策略:

    1. 取最近一条,保证特征的时效性最强。

    2. 参考遗忘曲线,对不同时间点的特征进行加权融合。

    图4 - 特征有效期和取用策略

    Part 4. 如何使用存量数据和增量数据?

    1. 增量数据:一般指实时数据,可直接计算一度关系的边权重。例如,如果用户申贷下单时必须导运营商数据,那么就可以根据实时导入的通话记录来构建图关系网络。这是最新的数据,自然更能反映用户此时的风险。

    2. 存量数据:在一些场景下,我们不得不依赖于使用存量数据。

    • 场景1: 前期业务流程中要求用户强制导运营商数据,后期变成用户可选提额项。

    • 场景2: 某块数据之前都是在定价环节才调用,而此次建模希望用在额度环节(在定价之前)。

    此时,我们该如何使用呢?考虑到对于某些新用户,虽然其自己没有导入运营商这类的关系数据,但是可能其身边的人在历史申贷时就已经导入过资料。那么,在历史关系网络中,该新用户就被囊括在其中。因此,存量数据也有其使用价值。

    同样的道理,我们需要考虑关系网络也具有时效性。某些历史关系网络比较稳定,比如家人关系,那么就可以使用较久版本的,否则就只能用最近的,甚至不使用。

    图 5 - 关系网络有效期

    Part 5. 如何实时上线?

    据笔者所知,目前线上计算二度关系的技术门槛仍然很高,因此我们在实时计算时考虑一度关系(应该也能达到80%的baseline效果,剩下的20%可能就需要靠高阶关系了),二度关系甚至更为复杂的社区发现算法则放在离线计算。因此,在实时构建一度关系和离线提供一度和多度关系的相互补充下,将会得到相对于只用实时一度关系更好的效果。

    节点特征表则可通过离线提前计算,并将有效期范围的不同观察点的节点特征汇总成一张表,导入到线上数据库。

    对于实时订单,可实时构建出关系网络,取出一度联系人和相应的边权重。并从节点特征表中取出邻居用户的特征,进而传播扩散,生成实时图特征。

    Part 6. 如何验证关系特征的效果?

    在风控建模中,评估特征性能最为关注稳定性和区分度。稳定性可用PSI(群体稳定性)来计算,而区分度可用IV(信息量)来衡量。再次强调稳定性在风控中的重要性。

    因此,可按照以下步骤来快速评估:

    1. 考虑先回溯足够多的样本,通常是要求几个月以能评估稳定性

    2. 先评估特征的区分度。对于IV很高的特征,再次确认取数逻辑中是否用到未来信息。

    3. 筛选出区分度较强的特征,进一步评估稳定性。

    Part 7. 如何去优化关系特征?

    1. 引入边权重,而不仅仅是有关联的一度用户。

    2. 离线增加更多关系较强但覆盖率较低的边,以起到补充更多一度联系人的作用。

    3. 节点特征增加更多维度。本质还是在于特征传播,因此加有效的节点特征是最重要的。

    4. 利用样本和target变量对关系网络融合权重参数估计,以期达到更合理的网络融合。

    展开全文
  • 风控业务背景常规RFM时间切片统计特征侧重于纵向维度量化用户风险,而关系网络特征则从横向维度来评估。纵向是指同一用户在不同时间段上的行为异常风险;横向是指在同一个时间段里聚集的不同用户放...

    风控业务背景

    常规RFM时间切片统计特征侧重于纵向维度量化用户风险,而关系网络特征则从横向维度来评估。纵向是指同一用户在不同时间段上的行为异常风险;横向是指在同一个时间段里聚集的不同用户放在一起评估风险。因此,关系网络特征可作为常规RFM特征的一个有力补充,为风控模型带来可预见的增量效果。

    芝麻信用分中的人脉关系维度可以给我们带来很多启发,其又细分为人脉圈稳定性、社交影响力指数和信用环境指数三个子指标。其中信用环境指数是本文主要参考学习的方向。

    图1 - 芝麻信用评分维度之人脉关系

    本文不围绕各种复杂的社区发现算法展开,只从业务角度分享下构建关系特征的一些实践经验。关系网络中最重要的两部分无非就是——边(edge)和节点(node)。围绕这两点,我们可以考虑几个问题:如何分析可用数据?如何根据已有数据源来构建关系网络?如何构建关系特征?如何评估关系特征的性能?如何落实上线方案?

    目录
    Part 1. 如何分析可用数据?
    Part 2. 如何构建边关系?
    Part 3. 如何使用节点特征?
    Part 4. 如何使用存量数据和增量数据?
    Part 5. 如何实时上线?
    Part 6. 如何验证关系特征的效果?
    Part 7. 如何去优化关系特征?
    致谢
    版权声明

    Part 1. 如何分析可用数据?

    1. 考虑数据源的稳定性。

    在风控中, 稳定性压倒一切。数据源是构建特征的前提,如果数据源采集上就不稳定,必然导致特征波动。那么为了调研数据源采集情况,我们该咨询哪些人员,以及关注哪些问题呢?以下是笔者的一些实践建议:

    • 信贷产品设计人员 :了解产品页面跳转流程,包括:在哪个页面将会要求用户导入资料?需要用户授权同意哪些数据采集协议?新用户相对于老用户会少哪些数据?

    • 外部数据对接开发人员 :外部数据是其他数据公司所提供的,从而可能存在一些不确定性。例如,由于输出变量不稳定而被使用方下线,或者由于协议到期而被提供商下线。需要明确:外部数据在哪个环节(额度、定价、支用)调用?覆盖哪些产品和客群?外部数据接口调用的稳定性?

    • 风控策略人员 :了解风控流程和未来业务调整计划。风控流程图帮助你理解在整个风控链路上数据采集和风控策略之间的映射关系;业务调整计划帮助你排除一些未来不可用数据。例如,为提高用户转化率或合规性要求,未来计划把某些用户数据 由必导项改为自选项 ,那么可预见这块数据未来的采集率将会逐渐下降。如果对这块数据依赖性高,就会导致模型不稳定。此时,我们就不得不放弃实时数据的使用,或者考虑分箱等方式来平滑影响,或者考虑如何利用存量历史数据。

    ???? 建议 :可分产品线、时间粒度(天/月)等维度统计数据的缺失率,以此分析数据的稳定性。

    2. 考虑数据源的厚薄度

    由于各个数据源在不同时间点开始采集,因此数据的厚薄程度存在差异。在构建时间切片特征时也需注意这一点—— 明确观察期窗口是否有效。例如,数据采集时间是从2018-01-01开始的,如果要统计最近30天内的RFM特征,那么有效的观察期窗口就是30天,有效的观察点(样本)就只能从2018-02-01开始,2018年1月份的样本由于观察期不满30天就无法统计到有效的特征。在样本特征回溯中,笔者经常看到某些同学犯这个错误。

    因此,如果某块数据在最近才开始采集,那也不得不舍弃。

    3. 考虑模型的应用场景。

    特征是为模型服务的。因此,在构建关系特征前,我们需要明确模型的应用场景,为模型“量身定制”。如果计划用在风险定价(A卡模型)环节,那么某些在A卡之后的环节才能获取的数据就无法使用。很多建模经验不足的同学,不管三七二十一,直接把所有可能使用的数据拿来测算,根本没考虑过线上如何使用的问题。最后,要么离线测算结果就不佳,要么最后根本无法上线使用。

    ???? 建议 :罗列一份数据源质量分析清单,笔者在整理中的结果表示例:

    图2 - 数据源质量分析清单

    Part 2. 如何构建边关系?

    我们可以从 关系强弱(边权重)覆盖率(边数量)两个维度来衡量数据源对定义边的重要性。由于各家公司对数据源获取情况各异,在此就只对目前市场上的数据源分析关系强弱。

    1. 运营商数据 :关系⭐️⭐️⭐️⭐️⭐️。可根据最近N天内通话记录次数等指标来衡量两个人之间的亲密程度。

    2. 设备数据 :关系⭐️⭐️⭐️⭐️。可根据最近N天内是否共同使用过一台设备、是否共同使用过同一个Wi-Fi等指标衡量。

    3. 通讯录数据 :关系⭐️⭐️⭐️⭐️⭐️。通讯录中所存号码的备注信息可判断亲密度。

    4. 紧急联系人数据 :关系⭐️⭐️⭐️⭐️⭐️。通常情况下,用户所填的紧急联系人会是自己的家人、同事、亲友等。

    5. 电商地址数据 :关系⭐️⭐️⭐️。根据地址相似度比对来判断用户之间存在的关系。由于地址数据需要提前规整,处理难度大。

    6. 运营老客拉新数据 :关系⭐️⭐️⭐️。产品运营活动中常会推出各种老客拉新活动以实现用户增长。链接传播渠道一般是微信。因此被拉的新客与老客之间通常是微信朋友关系。

    7. 银行卡转账记录数据 :关系⭐️⭐️⭐️。通常情况下,覆盖率较低。

    8. LBS地址位置数据 :关系⭐️。由于设备经纬度数据采集误差和位置时效性强的问题,这块数据对于衡量用户关系较弱。

    9. 其他数据

    在罗列出所有可用于构建边关系的数据后,我们又会面临一个问题:每个数据源就可以提取出多个边关系,那么就可以构造多个子网络,我们该如何处理这些边?

    可以有以下2种做法:

    • 特征层融合 :对每个子网络独立构建图特征,在特征层中融合。该方案在实践中的优点在于方便直观,可并行;缺点在于工作量大,如果有a个数据源,每个数据源可提取b种关系的边,又有c个节点特征,此时就会衍生出 a ✖ b ✖ c个特征。在建模中,也不可能对这所有的特征入模,需要开展大量的特征筛选工作。

    • 网络层融合 :该方案在实践中的优点在于将各类强边弱边融合在一起(w1 * e1 + w2 * e2 + w3 * e3 + ...),使边的内在含义更为丰富,边的覆盖率得到提升;缺点在于无法很好对融合权重赋值,前期可考虑专家经验拍定,后期优化可以考虑结合具体的target来训练估计。

    图3 - 特征层融合 VS 网络层融合

    Part 3. 如何使用节点特征?

    一般情况下,节点特指用户(当然也可以是手机号、设备等)。我们可以通过RFM模型批量生产出大量时间切片特征,或者根据业务理解构造出强业务特征。

    而关系网络的一个价值在于:利用节点所在群体(可以是一度、二度,或者社区发现算法挖掘出的簇)中的邻居节点特征,通过关系网络传播到某个节点上。

    如果节点特征表对邻居节点的覆盖率低(通常情况下,邻居节点数 >> 特征表中节点数),那么网络传播过程将会大打折扣。试想,一个下单用户好不容易找出100个一度邻居,然而只有3个邻居节点特征变量有值,其余邻居节点特征都为null,那么通过传播(对邻居节点求mean、max、min、sum聚合操作)后,该下单用户仅仅利用了3个邻居的信息。

    ????因此, 节点特征表中的用户量决定了特征传播的上限。

    接下来,我们就会考虑如何去扩充节点特征表中的用户量?最直接的做法——我们把历史全量用户的特征都拿过来用不就行了?但需要注意的是,用户特征具有时效性。 所谓 时效性,是指用户特征是否能有效反映用户最近的风险。 因此,贪多反而会引起特征质量下降,两者需要做权衡。

    如果该特征的稳定性比较好(反映用户稳定属性的特征,如性格、信用等),那么就可以尽可能使用历史存量数据。也就是说,设定节点特征表的有效期为1年(或更长),在有效期内的历史全量节点特征,我们都可以拿来传播。例如信用卡额度,通常认为一个用户在1年内的额度不会发生太大变化。

    反之,对于时效性强的特征,我们宁可牺牲覆盖率,也要缩短有效期,目的是为了保证特征的时效性。例如同盾这类的多头借贷数据,随着接入和退出机构的动态变化,半年前的同盾数据可能已经无法反映用户当前的借贷风险,若直接使用反而会引入噪声。

    对于某个节点(用户)特征表在不同时间点存在多条记录的,可以考虑以下策略:

    1. 取最近一条,保证特征的时效性最强。

    2. 参考遗忘曲线,对不同时间点的特征进行加权融合。

    图4 - 特征有效期和取用策略

    Part 4. 如何使用存量数据和增量数据?

    1. 增量数据:一般指实时数据,可直接计算一度关系的边权重。例如,如果用户申贷下单时必须导运营商数据,那么就可以根据实时导入的通话记录来构建图关系网络。这是最新的数据,自然更能反映用户此时的风险。

    2. 存量数据:在一些场景下,我们不得不依赖于使用存量数据。

    • 场景1: 前期业务流程中要求用户强制导运营商数据,后期变成用户可选提额项。

    • 场景2: 某块数据之前都是在定价环节才调用,而此次建模希望用在额度环节(在定价之前)。

    此时,我们该如何使用呢?考虑到对于某些新用户,虽然其自己没有导入运营商这类的关系数据,但是可能其身边的人在历史申贷时就已经导入过资料。那么,在历史关系网络中,该新用户就被囊括在其中。因此,存量数据也有其使用价值。

    同样的道理,我们需要考虑关系网络也具有时效性。某些历史关系网络比较稳定,比如家人关系,那么就可以使用较久版本的,否则就只能用最近的,甚至不使用。

    图 5 - 关系网络有效期

    Part 5. 如何实时上线?

    据笔者所知,目前线上计算二度关系的技术门槛仍然很高,因此我们在实时计算时考虑一度关系(应该也能达到80%的baseline效果,剩下的20%可能就需要靠高阶关系了),二度关系甚至更为复杂的社区发现算法则放在离线计算。因此,在实时构建一度关系和离线提供一度和多度关系的相互补充下,将会得到相对于只用实时一度关系更好的效果。

    节点特征表则可通过离线提前计算,并将有效期范围的不同观察点的节点特征汇总成一张表,导入到线上数据库。

    对于实时订单,可实时构建出关系网络,取出一度联系人和相应的边权重。并从节点特征表中取出邻居用户的特征,进而传播扩散,生成实时图特征。

    Part 6. 如何验证关系特征的效果?

    在风控建模中,评估特征性能最为关注稳定性和区分度。稳定性可用PSI(群体稳定性)来计算,而区分度可用IV(信息量)来衡量。再次强调稳定性在风控中的重要性。

    因此,可按照以下步骤来快速评估:

    1. 考虑先回溯足够多的样本,通常是要求几个月以能评估稳定性

    2. 先评估特征的区分度。对于IV很高的特征,再次确认取数逻辑中是否用到未来信息。

    3. 筛选出区分度较强的特征,进一步评估稳定性。

    Part 7. 如何去优化关系特征?

    1. 引入边权重,而不仅仅是有关联的一度用户。

    2. 离线增加更多关系较强但覆盖率较低的边,以起到补充更多一度联系人的作用。

    3. 节点特征增加更多维度。本质还是在于特征传播,因此加有效的节点特征是最重要的。

    4. 利用样本和target变量对关系网络融合权重参数估计,以期达到更合理的网络融合。

    展开全文
  • 反欺诈技术揭秘-设备指纹VS关系网络模型   (2017-05-12 10:23:52) 转载▼ 标签:  设备指纹   关系网络   反欺诈   神经网络模型 分类: 风控 文章来源:...

    反欺诈技术揭秘-设备指纹VS关系网络模型

     (2017-05-12 10:23:52)
    标签: 

    设备指纹

     

    关系网络

     

    反欺诈

     

    神经网络模型

    分类: 风控
    文章来源:网络(经整合梳理,仅供交流学习使用)        

         
         从互联网金融诞生之日起,骗贷者便如影随形。

    坊间传说,2016年,至少有3家互联网金融领域的创业公司,被骗贷者“撸”垮。

    小平台深受其害,大平台同样也躲不过。作为一家已经在美国上市的P2P公司,宜人贷在2016年三季报坦诚,由于旗下产品遭遇“有组织的欺诈事件”,公司损失了8130万元的风险准备金。

    那么问题来了,作为一个骗贷者,他究竟是如何骗到钱的呢?


    反欺诈技术揭秘-设备指纹VS关系网络模型

          线上招收学员

             由于互联网金融行业的无序发展,大多数平台的风控能力相对薄弱,骗贷者便利用“口子”(平台的风控漏洞),设法把钱骗到手。

            一般来说,要想成为骗贷者,必须先找到人教,弄清楚平台的漏洞究竟是什么。

            在这一过程中,互联网成了最为便利的工具。只要你每天在骗贷者聚集的论坛或贴吧发帖,就会引起中介的注意。

            发帖的内容颇有讲究,骗贷者一定要注明是兼职的需求,只有这样,中介才会在收取一笔费用后,将骗贷者介绍进入他们的体系。

           当然,中介也会核查骗贷者的身份,确保不是记者或金融机构的人。核查方法很简单,查看骗贷者的朋友圈——如果朋友圈里都是些吃吃喝喝的内容,更容易获得中介的信任。

           在取得中介信任后,骗贷者就有可能获得各互联网平台的规则漏洞,以及骗贷攻略,并据此开始骗贷。

           上述过程中,找到一个靠谱的中介至关重要,骗贷者被中介“黑吃黑”,损失数百元中介费的情况,极为常见。


    线下购买身份

           如果说线上的骗贷者,更多是单打独斗的话,线下的骗贷者,组织更为严密。

           有的骗贷组织,会专门去偏远农村,去购买大批留守老人的身份信息——酬劳往往非常廉价,可能是一篮子鸡蛋,也可能是100元钱。

           拿到真实的身份信息后,这些组织要么立即去攻破一些风控极为简陋的平台,每个身份骗一笔小钱;要么花时间精力把信用记录养起来,然后再去骗贷,骗更多的钱。

           此前还有媒体报道过这样一种线下骗贷手法:骗贷组织先在某社区租一个商铺,简单装修后谎称是茶庄生意,然后再将某偏远村的村民都接过来,统一教村民各种应对互金风控人员的话术。

          准备工作完成后,骗贷组织让村民们分别去向数十家信贷机构申请贷款,一轮下来,一个人能获利数百万元。骗贷组织在付给村民一定酬劳后,将村民送回老家,自己也拿着钱人去楼空。

    与平台“斗法”

                 对于骗贷者的存在,各互联网金融平台也心知肚明,并开始与骗贷者“斗法”。

            各互联网金融平台的措施各不相同,为了防范骗贷者,大家也都不愿细说。

           一般来说,平台的反制措施,一是通过舆情监测机器人进行检测预警,二是人工核验身份,三是利用大数据进行识别。

           值得一提的是,虽然目前已经有第三方公司提供行业黑名单,但各平台却并不将其作为主要的防范手段,因为一般情况下,如果一个人的身份信息能被黑名单查到,往往意味着行骗的过程已经结束了。

                对于平台来说,最令他们感到头疼的是,对于骗贷者的惩罚实在是太过轻微。骗贷者在网络借贷中发生的逾期或骗贷行为,目前是无法纳入央行的个人征信系统的。

          正因如此,骗贷者才能有底气喊出这样一句话:“凭自己本事骗来的钱,为什么要还?”

                整治骗贷者究竟有何妙药?目前比较有效的方式有两种:一是设备指纹,二是关系网络模型。听起来都好高大上的样子。



                先来说说设备指纹,故名思议,就是给每台设备颁发一个类似人类指纹一样的唯一身份证。

                移动互联网时代,随着cookie的逐渐失效,新一代设备识别方法—设备指纹,近两年可以说是大红大紫。

      相对于cookie,设备指纹具备不受浏览器兼容性限制、用户无法修改、不会被浏览器清除、可跨应用追踪等诸多优点,可谓集美貌与智慧于一身,在网络营销、反欺诈等领域应用广泛,也难怪众多企业为它争得头破血流。

    设备指纹也有门派之分,其中主动式发展最早、技术门槛相对较低,因而目前应用比被动式和混合式两种更为广泛。

      但即便如此,主动式设备指纹的应用也十分复杂,需要收集诸多信息才能保证设备识别的准确性,如MAC地址、设备IMEI号、广告跟踪ID、设备唯一序列号、地理位置等等。

      此外,还要突破浏览器兼容性、千变万化的设备型号、代理、软件篡改设备信息等重重难关。

    传说中的主动式设备指纹技术究竟怎么用。

      Step 1:请准备好已联网的电脑一台

      Step 2:打开以下网站https://github.com/Valve/fingerprintjs2

      Step 3:加载fingerprintjs2

      (点击可查看大图)

      Step 4:接着在页面中加入以下代码就可以轻松获得设备指纹啦

      (点击可查看大图)

      Step 5:没有了

      No,小编是认真的。


               这种主动式设备指纹技术有其特有的优点和适用场景,但其缺陷也相当突出。
     
               首先,存在明显的用户隐私侵犯,并因此可能导致被Google和苹果Apple Store下架。
     举个例子,金融、支付行业中有很多业务场景对于用户隐私的保护要求很高,就无法使用主动式设备指纹做设备识别。         

                其次,主动式指纹不能实现App和mobile web间,不同浏览器间的设备识别。
    主动式设备指纹对于需要跨网页/应用追踪用户行为的场景,比如追踪App安装究竟来自哪个广告渠道,就无能为力。

               另外,主动式设备指纹所取特征均暴露于客户端,欺诈者可轻易通过一些一键新机等工具篡改相应特征信息,从而使指纹无效。

      这些场景就需要相对技术门槛更高的被动式设备指纹技术来解决了。


               最新的被动式设备指纹技术,从数据包的OSI七层协议中,提取出这台设备的操作系统、协议栈和网络状态相关的特征,并结合机器学习算法以标识和跟踪具体的移动设备。相比于主动式设备指纹技术,被动式设备指纹技术在适用范围和灵活性上,有着不可比拟的优势:

    1)更大的适用范围,由于被动式设备指纹技术完全工作在服务器侧,一些无法植入SDK或JS的场景也可使用;

    2)跨Web/App,跨浏览器的识别;

    3)完全不侵犯用户隐私,避免了被AppStore下架的风险。




              接下来,重点说说牛逼哄哄的关系网络反欺诈技术。内容有点烧脑,烧死脑细胞后果自负~~~~下面就来看看在大数据角度怎么利用关系网络,通过无监督学习算法,挖掘诈骗团伙的特征,从而识别诈骗团伙的反欺诈技术。

      从常见的两种反欺诈模型说起

      金融欺诈,一般是指采用虚构事实或者隐瞒事实真相的方法,骗取公私财物或者金融机构信用的犯罪形式。几乎所有涉及金钱和服务的商业模式都会受到欺诈的攻击。通信、保险、贷款和信用卡申请是一些最容易出现金融欺诈的领域。

      目前并没有一个通用的反欺诈框架可以识别并防范所有形式的欺诈。在每一个领域,金融欺诈都有不同的形式和特征,比如,一个应用于信用卡申请的反欺诈模型并不能直接应用于保险领域,亦无法直接应用于信贷领域。

      一种最常用的反欺诈模型,是通过建立一个规则引擎或者机器学习模型来描述欺诈行为的特征,从而将欺诈行为从正常操作中区别开来。在反欺诈规则引擎中,这些甄别欺诈行为的规则依赖于从大量历史案例中总结出来的“专家知识”。例如,如果一个人申请贷款所用的手机号与其常用的手机号不一致,则这笔申请的欺诈风险就被认定稍高一些。

      另一种则是反欺诈机器学习模型,它指的是采用数据挖掘方法,基于历史数据(即,已知的欺诈申请和正常申请的数据)而建立的分类模型。这类模型的训练往往需要大量数据。

      两者有何区别?上面提到的规则引擎可以看作是一种特殊的最简单的机器学习模型:决策树模型。决策树模型具有极好的可解释性,因而,即使数据量不足,也可以通过专家知识来补全规则集。而广义上的反欺诈机器学习模型往往指的是采用更复杂的算法建立的模型(如随即森林、深度学习等)。这些模型的训练需要大量的历史数据并且其结果通常很难解读。

      不论是规则引擎还是机器学习模型,都是从历史案例中发现金融欺诈时重复出现的个体行为模式。这个方法在很多领域被证明为有效(例如,用于审核个人还款能力意愿的信用评分模型),然而在解决金融欺诈问题时表现一般, 原因有两个

      其一,金融欺诈的模式随时间不断演化和发展,而不仅仅是重复出现在历史案例中的个体行为模式;

      其二,随着反欺诈技术的进步,金融欺诈越来越难以由个体完成,而是需要通过团伙有组织的进行。

      关系网络提供了全新的反欺诈分析角度

      基于上述金融欺诈发生的两个特点,采用关系网络进行反欺诈检测变得越来越重要。关系网据指的是一种基于图的数据结构,由节点和边组成,如下图1所示。每个节点代表一个个体,每条边为个体与个体之间的关系。关系网络把不同的个体按照其关系连接在一起,从而提供了从“关系”的角度分析问题的能力。这更有利于从正常行为中识别出到异常的团伙欺诈行为。

      反欺诈技术揭秘-设备指纹VS关系网络模型

      图1

      关系网络的结构取决于如何定义个体与个体之间的关系。如果人与人存在“关系”指的是彼此认识,那么最终的网络结构将是一个无标度网络,其典型特征是在网络中的大部分节点只和很少节点连接,而有极少的节点与非常多的节点连接。如果将“关系”定义为亲属关系,则最终的网络结构将是一个个非连通的子图,每个子图代表一个家族。

      在解决实际问题的时候,关系的定义需要依据业务需求并且常常极为复杂。例如,某市公安局为了摸清犯罪嫌疑人的团伙,定义了24种人与人之间的关系。在反欺诈领域,如何定义“关系”更是需要保密,这是为了避免欺诈团伙采取针对性地防范策略,本文对这部分内容就不做过多的说明了。

      图2展示了由从某一线城市抽样的20,000余条贷款申请数据所构成的关系网络。因为所定义的“关系”均为强关系,所以图的结构不是一个连通的无标度网络,而是由一个个孤立的“团”组成的网络。其中,大部分的“团”由两个个体组成,他们之间通过某种关系相连。个别的“团”是由几十甚至上百个体组成的具有复杂结构的网络。


      反欺诈技术揭秘-设备指纹VS关系网络模型

      图2

      网络分析在反欺诈中的独道运用

      接下来,我们来讨论关系网络在反欺诈中的应用场景,主要分为监督模型和无监督模型两种情况。所谓的监督模型,指的是在已知“好”和“坏”标签的前提下,尝试从历史数据中,挖掘出欺诈团伙的典型特征和行为模式,从而能够有效的识别出金融欺诈团伙。监督模型虽然在预测准确性上有不错的表现,但是,实际情况中,“好”和“坏”的标签往往很难得到。因此,在没有标签信息时,无监督模型分析也变得尤为重要。当然,本文提到的分析方法只是关系网络在反欺诈场景中的冰山一角,更多的算法模型需要结合实际业务需求进行设计和开发。

      典型运用一:异常检测

      异常检测是在无监督模型学习中比较有代表性的方法,即在数据中找出具有异常性质的点或团体。在检测欺诈团体的情况下,异常检测被认为是比较有效果的。以贷款申请为例,许多团伙会选择共享一些申请信息,如提供同一个皮包公司的地址作为公司信息,或者联系人电话重合程度高。因此,在关系网络中,大多数的正常的个体应该是独立的节点,或者与另一个节点组成规模为二的团体(在这种情况下,多数可能为家人或亲友关系)。若出现三个点以上甚至十几个点关系密切时,则这些团体可被归为异常。上文中的20,000笔贷款申请组成的关系网络中含有300多个团体,团体规模分布由下图所示,其中大部分团体的规模较小,当团体规模超过某一阈值时,其可被认为异常。

      反欺诈技术揭秘-设备指纹VS关系网络模型

      图3

      我们对团体规模大小和欺诈度的相关性进行了分析。其中,欺诈度的定义为:欺诈度=团体中欺诈申请者的数目/团体中申请者总数。我们通过行业内的网贷黑名单数据来判定某一个体是否为欺诈申请者。相关性结果如下图所示,其中,横坐标表示团体规模大小,纵坐标表示欺诈度。可以看出,当团伙只有两个人时,欺诈度的中位数是0,而当规模变大时,欺诈度陡然增加。当团体规模大小为三人时,欺诈度最高,达到30%,其次为规模超过六人的团体。

      反欺诈技术揭秘-设备指纹VS关系网络模型

      图4

      异常检测并不能够明确的给出一个团体是否欺诈,但是可以通过这种方法排查出可疑的团伙,从而进行调查。该算法并不是基于历史数据挖掘隐藏的欺诈模式,因而常常能够有效地识别出新出现的未曾记录的欺诈行为。

      典型运用二:团体分群

      分群是一种常常被用于客户精准营销的无监督聚类算法,根据客户各个维度的信息,将其归并于某一特定群组,并对不同群组的客户采取差异化的营销策略。除了用于精准营销,分群算法还可以用于离群行为的检测,即,检测哪些客户的行为与同一群体的其他客户不同。这些离群行为或是预示着这些客户处于某些特殊事件情境中,或是预示着欺诈行为。这一部分主要和前文提到的异常检测相关,这里不再赘述。

      与客户分群不同,团体分群不仅依赖于团体中每个个体的特征,还依赖于整个团体作为一个整体的特征。这一方面使得团体分群拥有足够丰富的数据维度,另一方面也增加了问题的复杂性。一般来说,团体的特征可以分为 (1)和网络结构相关的团伙拓扑特征以及(2)和个体信息相关的团伙实体特征这两个大的维度。其中,团体的拓扑特征包括团的节点的数量、平均自由度、团体中节点间最长的最短路径等;团的实体特征包括团中男女比例、最大年龄差,平均年龄、团体总资产、团体总负债等。

      团体分群即是对给定网络中的团体依据以上特征进行区分,从而挖掘有潜在欺诈风险的团体的方法。举一个简单的例子,以团体中的男性占比和年龄差者两个特征来对网络中的团体进行分群。作为以家人关系而形成的团体,一般由三人形成,多为两男一女或两女一男,男性占比33%或67%,并且年龄差一般为20-30岁。具有这种性质的团体一般为家庭团体,因而风险性较小。但对于人数较多,男性占比高,而且年龄差较小的团体,则有可能是欺诈团伙,需要进一步调查。

      实际问题中,描述一个团伙的数据维度非常丰富,有时可多达数十个,这就对分群造成了困难(在高维空间中,寻找点的集群并不是一件容易的事,俗称“维度灾难”)。一个常用的解决方法是先对高维数据进行降维,然后再在低维空间中进行聚类。图5是对一组数据中由贷款申请构成的300多个团体进行分群的结果。在这个分析中,我们用男女比例、最大年龄差、有车个体占比、有房个体占比、有贷款个体占比和买理财产品个体占比这六个维度对团伙进行描述。我们采用t-SNE(t-Distributed Stochastic Neighbor Embedding)算法对高维数据进行降维和DBSCAN聚类算法对低维数据进行分群。由图5可见,在低维空间中,确实存在明显分隔的集群,这说明团体分群在实际操作中的可行性。

      反欺诈技术揭秘-设备指纹VS关系网络模型

      图5

      (每一个点代表一个团体,上述数据可以分为八个集群)

      我们对图5中每一个集群进行分析。集群1中的团体男女比例1:1,年龄相差0-5岁,集群中无人有贷款或买理财产品。这个集群很可能描述了由年轻情侣构成的团体。对于集群2中的团伙,男女比例2:1,年龄相差15-30岁,每个团伙中平均有一人有车和房,并且背有贷款,这个集群很可能描述了由父母子女构成的“团伙”。按照同样的方法可以对图5每一个集群进行分析,这里不一一赘述。尽管我们没有“好”、“坏”标签,无法得知哪个集群含有大量欺诈团伙,但是我们可以依据经验和专家知识筛选出可疑的集群,为进一步调查做好准备。例如集群6中全部由男性“团伙”构成,年龄相差0-10岁,团伙中大量个体都背有贷款。这个集群的欺诈嫌疑就比其他集群要高一些,下一步就可以继续对其进行进一步的调查。

    展开全文
  • 标签 PostgreSQL , pgrouting , neo4j , graph database , 图...人类是群居动物,随着人口的增长,联络方式越来越无界化,人与人,人与事件,人与时间之间形成了一张巨大的关系网络。 有许多场景就是基于这张巨...
  • 知识图谱在风控的应用简述

    千次阅读 2017-09-19 14:27:00
    本文讲的是知识图谱在风控的应用简述,从校内到人人,微信到陌陌,我们早已熟悉各式各样“你可能认识的人”,”六度空间”理论早已深入人心。社交软件通过不同人的社会特征将大家关联到一起形成一个庞大的社交网络。...
  • 要将任意维度的历史数据(可能半年或更久)实时统计出结果,需要将数据提前安装特殊结果准备好(由于事件的维度数量不固定的,选取统计的维度也是随意的,所以不是在关系数据库中建几个索引就能搞定的),需要利用...
  • 网络安全关系每位用户的基本利益,也是网络平台的基础保障。为了给用户营造更加绿色健康的网络氛围,假面科技近期全面升级了平台的网络风控能力,努力清除部分用户上传的违法违规信息,不给不法分子可乘之机。 为了...
  • 图数据库解决了困扰数据库界已久的复杂关联(多表关联)难题,善于处理海量的、复杂的、互联的、多变的网状数据,特别适合于高效治理异构大数据、深度挖掘复杂网络以及推理预测隐性关联关系。 图数据库作为一种新兴...
  • 通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 1. 什么是知识图谱? 知识图谱本质上是语义网络...
  • 评分模型可以从信贷风险管理流程上分成申请评分模型、行为评分模型、催收评分模型以及反欺诈评分模型,这里的反欺诈评分模型还是二分类的评分模型,不同于异常检测、模糊匹配、关系网络等图论型模型;也可以从应用...
  • 阿里云关系网络分析软件介绍Graph Analytics, I+是基于关系网络的大数据可视化分析平台,在阿里巴巴、蚂蚁金服集团内广泛应用于反欺诈、反作弊、反洗钱等风控业务,面向公安、税务、海关、银行、保险、互联网等提供...
  • 近期,阿里云发布I+关系网络分析,旨在以OLP模型为核心,面向业务快速建模...目前,I+关系网络分析已在阿里巴巴、蚂蚁金服集团内广泛应用于反欺诈、反作弊、反洗钱等风控业务。 产品概述 关系网络分析是基于大数据...
  • 金融风控反欺诈线条里,运用社会关系网络(SNA)技术结合信贷产品业务场景发现疑似团伙欺诈,已经成为近年反欺诈技术的成功应用和热点,不仅是金融科技公司不断升级欺诈监测技术,就连传统银行,也开始着力搭建自己...
  • 秦苍科技将用户和紧急联系人信息组建一个巨大的社交关系网络。通过社交关系中的关联度、集中度、社交关系的逻辑勾稽等异常检测,就可以动态地进行欺诈检测。通过匹配手机号码、年龄、性别等逻辑关系,并在社交网络上...
  • Neo4j 文章目录Neo4j简介启动导入数据准备数据集创建节点创建关系索引创建索引删除索引CQL(Cypher Query Language)客户端驱动...社交网络、推荐引擎、交通物流、欺诈风控 不适用场景: 记录大量基于事件的数
  • 图神经网络(Graph Neural Network)是一种专门处理图结构数据的神经网络,目前被广泛应用于推荐系统、金融风控、生物计算中。图神经网络的经典问题主要有三种,包括节点分类、连接预测和图分类三种。本次比赛是图...
  • 图神经网络(Graph Neural Network)是一种专门处理图结构数据的神经网络,目前被广泛应用于推荐系统、金融风控、生物计算中。图神经网络的经典问题主要有三种,包括节点分类、连接预测和图分类三种。本次比赛是图...
  • 通过强强联手,双方将在战略一致契合的基础上,充分发挥双方领先平台、技术和资源优势,在金融风控服务、关联网络的应用方面展开深度合作。 融慧金科致力于生态赋能发展,积极做好普惠金融坚定的守
  • 知识图谱 该技术最早在谷歌搜索领域得到应用,类似应用: 推荐系统的相关产品、天眼查企业关系、金融风控的信用评级、构建知识体系(目前火热) ...概念定义 ...是不同种类信息间的关系网络 数据结...
  • 3.把所有不同种类的信息连接在一起而得到的一个关系网络 4.提供了从“关系”的角度去分析问题的能力 知识图谱应用举例: 搜索引擎、推荐系统、金融风控 图数据库neo4j的使用: 0.安装Java JDK 1.在Neo4j官网...
  • 图模型在欺诈检测应用一点看法

    万次阅读 2017-12-07 20:12:22
    (2)欺诈者容易改变自身欺诈手法,逃避风控规则,但是他难以改变的全部关联关系,以及难以掌握全局视图,难以让他所在网络群体同步执行相同操作来躲避风控。还有一句话"天网恢恢,疏而不漏",当关联网络覆盖到一个...
  • 如何用风控拯救下架的小红书 介绍了做内容风控的一些方法:敏感词过滤,决策引擎,用户关系网络横向纵向挖掘,app加固。 做了8年平台,我总结了平台的5道坎 美团总裁分享打造平台的方法论,想做平台的可以精读下 ...
  • powergraph源码分析-1

    2019-09-17 15:56:46
    过去一段时间一致在这个领域,分享交流下^_... 近几年图的价值在各个场景都有明显体现,数据的使用从面向记录集到面向点与点的关系过渡,尤其是在搜索,风控,社交网络等场景,体现为人与人的关系发现,商品与商品间...
  • 人 工 智 能 产 品 介 绍 目录 TABLE OF CONTENTS 1.... 落地与应用 研究领域 计算机视觉 语音识别 & 自然语言处理 机器学习 人脸识别 OCR文字识别 3D人脸 语音技术 自然语言 精准推荐 关系网络 人脸比对 身份证
  • 知识图谱的技术与应用-笔记

    千次阅读 2018-07-03 09:36:42
    社交网络图谱 风控知识图谱 知识图谱应用的前提是已经构建好了知识图谱 知识图谱是一个比较新的工具,主要作用在于分析关系,尤其是深度的关系。 知识图谱领域最重要的是知识的推理。 知识图谱工程本身...

空空如也

空空如也

1 2 3
收藏数 53
精华内容 21
关键字:

风控关系网络