精华内容
下载资源
问答
  • 数据应用案例】用户画像与实践案例

    万次阅读 多人点赞 2018-07-18 12:56:52
    即使是银行保险类企业,用户画像的数据源也需要与电信类企业合作。因此用户画像的能力需要平台赋能才能真正实现。 用户画像目前基本等同于用户标签,主要有两个作用: 作为上游数据源,为推荐、广告、搜索...

    ——————

    思考:

    1. 用户画像的最佳实践还是在互联网或者电信这种有用户各行动环节浏览记录的企业,对于线下B端企业,对于用户画像确实是难以做到的。即使是银行保险类企业,用户画像的数据源也需要与电信类企业合作。因此用户画像的能力需要平台赋能才能真正实现。

    2. 用户画像目前基本等同于用户标签,主要有两个作用:

      1. 作为上游数据源,为推荐、广告、搜索等下游产品线提供处理后的标签信息

      2. 辅助产品、运营、决策人员,做决策判断

    ——————

     

    一、用户画像概览

    1. 用户画像目的

      1. 个性化推荐

      2. 精准广告

      3. 精准运营:找到运营活动的目标人群

      4. 辅助产品设计:了解用户,识别不同用户的不同需求

      5. 辅助决策:行业趋势、竞对分析、地域分析、排名统计等

    2. 用户画像的维度

      1. 人口属性:性别、年龄、常驻地、籍贯、身高、血型等

      2. 社会属性:婚恋状态、受教育程度、资产情况、收入情况、职业等

      3. 兴趣偏好:摄影、运动、吃货、爱美、服饰、旅游、教育等

      4. 消费能力:消费能力(可以细分到对某个品类的消费能力,如宅男对衣服品类消费能力低,但是对动漫、周边、游戏消费能力高)与RFM等

      5. 意识认知:消费心理、消费动机、价值观、生活态度、个性等,是内在的和最难获取的。举个例子,消费心理/动机。用户购物是为了炫耀,还是追求品质,还是为了安全感,这些都是不一样的

    3. 用户标签的类型(参:https://mp.weixin.qq.com/s?__biz=MzU4NzM2NTQ0Nw==&mid=2247483913&idx=1&sn=2b819b3da396b181895a0527f5bb4da9&chksm=fdec6f21ca9be637357ac5db31f2df8dfd035f19d7dca9a06b26e7914f0df082fa7bbc4103cd&scene=21#wechat_redirecthttps://mp.weixin.qq.com/s?src=11&timestamp=1531800641&ver=1003&signature=BY9spMTKNymz2yOrjr8kYc0H979*5HC-Pf1IN9gKyyAEdBn1ws*mJ0ZaB935N9grH6jzowJxRVqUnXKhwPXbDuh10t2OgYu39nj3pArru7Sk6TjrSqmxWmaNJNGs9KA6&new=1

      1. 事实标签:直接从原始数据中提取,例如性别、年龄、住址、上网时段等等

      2. 模型标签:需要建立模型进行计算,例如美妆总体偏好度

        1. 统计型画像:是客观存在的,多为兴趣偏好。比如,用户每天都在看汽车新闻、搜索汽车相关的内容,基于这种行为,我们判断这个用户对汽车感兴趣

        2. 算法型画像:需要通过用户行为做预测,像用户的性别预测,尤其是挖掘人的内心态度。比如,用户在消费时,是激进的,还是保守的。这里包含有监督和无监督模型,有监督通过人工标注少量标签的方式进行拓展;无监督通过聚类然后命名的方式打标签

      3. 预测标签:通过预测算法挖掘,例如试用了某产品后是否想买正品、流失概率等

    4. 用户标签提取方法

      1. 原始数据基本提取方法

      2. 兴趣偏好

        1. 通过访问网页的域名、title等结构化信息

        2. 通过访问网页的正文内容抽取(参eBay案例:https://blog.csdn.net/u013382288/article/details/80385814

      3. 性别

        1. 身份证等确定信息

        2. 浏览记录、购物信息建模

        3. 通过姓名预测性别:考虑到中文中偏旁具有性别的识别能力(如嬛等女字旁文字),因此可以用 姓名+五笔编码 作为特征输入模型,如女V+罒L+一G+衣E = VLGE (参:https://mp.weixin.qq.com/s?__biz=MzI2MzM3MzkyMg%3D%3D&mid=2247484433&idx=1&sn=f30a6a3585becc1a500772aaa78fd937&scene=45#wechat_redirect

    5. 标签权重计算(参:https://mp.weixin.qq.com/s?src=11&timestamp=1531798368&ver=1003&signature=9XTYGH1jYyirIYL2M4Ur0Lk5XzODkXbGYVUQtiY4Gdfv68w7HMJswOBONImoKVTvjY-jfiJo95Hd537jpHlZxweS9wH81Hh56hG3O7u2kCctgOtCPjjzDRU-SoIA-WVU&new=1

      1. 行为成本越高,标签权重越高(如购物>收藏>浏览)

      2. 行为越接近现在,标签权重越高(引入衰减因子解决,标签权重=Σ衰减因子*时间间隔*某时刻标签权重)

      3. 归一化

    6. 标签间关系

      1. 树状关系:尽可能的遵循MECE原则(相互独立、完全穷尽),尤其是一些有关用户分类的,要能覆盖所有用户,但又不交叉。比如:用户活跃度的划分为核心用户、活跃用户、新用户、老用户、流失用户,用户消费能力分为超强、强、中、弱,这样按照给定的规则每个用户都有分到不同的组里(参:https://mp.weixin.qq.com/s?__biz=MzU4NzM2NTQ0Nw==&mid=2247483913&idx=1&sn=2b819b3da396b181895a0527f5bb4da9&chksm=fdec6f21ca9be637357ac5db31f2df8dfd035f19d7dca9a06b26e7914f0df082fa7bbc4103cd&scene=21#wechat_redirect

      2. 网状关系:

        1. 标签间关系的识别:简单地如共现,复杂的如标签embedding

        2. 标签传播

    7. 标签质量评估

      1. 用户分层评估:针对于重点人群进行评估,不同人群分层进行评估

      2. 全局评估:不要只局限于样本集合的评估,参看一些全局统计数据。例如,人口属性的分布和统计局的结果是否相符

      3. 应用反馈效果:将标签直接应用于使用场景中检验效果。例如,进行营销的定向投放,测试点击率

      4. 利用其它数据佐证:使用其他行为数据来验证标签的有效性。例如,在电商环境中后续的行为差异来评估显著性

      5. 多源交叉检验:多源生成的标签,检验是否一致(如不同数据源生成的性别标签)

    8. 用户画像流程总结

      1. 明确画像服务的业务目的

      2. 明确可以获取的数据字段

      3. 建立用户画像维度框架

      4. 用最简单的方法得到画像标签,投入业务使用,获得反馈

      5. 优化标签,提高效果

    9. 其它要点:

      1. 不能简单看画像分布,要做对比,如TGI

     

     

     

    二、用户画像实践案例

    case1 顺丰用户画像

    案例地址:http://100000p.com/article/2c9f60ee5e3d631a015e5e939dd10993

    1. 目的:面向C端,做品牌维护和精准营销

    2. 数据源:

      1. 内部:快递数据、金融数据、电商数据、O2O数据

      2. 外部:向第三方购买的数据、自己爬取的数据

    3. 会员标签维度:用户ID、基本属性标签、快递类标签、金融类标签、电商类标签、O2O标签

    4. 会员画像维度(通过标签的组合实现):客户价值(基于用户的寄快递行为以及社区行为,如“寄快递少但是出于寄快递网络的核心节点”)、购买力、营销响应、品牌态度、客户忠诚

    5. 业务实践效果:无介绍

     

    case2 58同城

    案例地址:https://mp.weixin.qq.com/s/pzABJ-uwh2bx7AXBWJDJRQ

    1. 目的:

      1. Face API:实时查询标签

      2. 离线画像数据:用户统计分析、建模,如搜索、推荐、推送、广告、金融、用户身份识别、安全

      3. Smart 网站:

        1. 推送筛选:帮助运营人员选定目标人群

        2. 人群分析:以标签为维度,生成报表,方便产品和运营人员使用

    2. 数据源:各子产品的日志、简历库、帖子库、用户信息库、商家库、认证信息库等

    3. 会员画像维度:人口属性、业务偏好、设备偏好等

     

    case3 友盟超级用户

    案例地址:https://mp.weixin.qq.com/s/gjrWS9QTeqMN5Jm4XNOoTg

    1. 企业选定自己的“超级用户”,上传超级用户列表。友盟根据用户画像做超级用户的lookalike得到放大后的目标人群,然后对目标人群进行细分、确定营销方案、投放广告触达

     

    case4 电信用户画像用户e9套餐升级营销活动

    案例地址:https://blog.csdn.net/mousever/article/details/50189847

    1. 背景:某省电信运营商e8套餐(宽带+固话)升级e9(宽带+固话+手机)的主要业务目标为针对e8客户加装电信C网号码并购买手机,升级为e9融合套餐或e9自主套餐用户。即,通过电信的自身的宽带客户资源,进行精准电话营销,促使用户购买手机,从而提升电信在手机市场的占有率。

    2. 目标:

      1. 找到目标投放人群

      2. 目标投放人群细分,设计针对性的营销方案

    3. 数据源:电信内部已经有比较完善的数据体系,并且有已经转换的用户数据。因此建立有监督模型即可

    4. 过程:

      1. 特征选择与合并:

      2. 分类器:由于主要需求是指定营销方案,因此采用单棵决策树作为分类器

    5. 结论

      1. 目标用户群:

      2. 用户细分命名:

     

    case5 基于用户画像的腾讯大数据防刷架构

    案例地址:http://bbs.qcloud.com/thread-10745-1-1.html

    1. 目标:区别刷单用户与普通用户,对于疑似刷单用户采取二次验证的方式检验

    2. 用户画像维度:

      1. 网络属性:代理IP、VPN IP、网关IP、服务器IP

      2. 地域属性:国外IP、IP归属地、高危地区

      3. 业务属性:登录腾讯业务、登录的腾讯用户量

      4. 恶意属性:DDOS IP、肉鸡IP、腾讯业务作弊IP

     

    case6 美团外卖用户画像实践

    案例地址:https://zhuanlan.zhihu.com/p/25731678

    1. 目标:

      1. 新客运营:新客在哪?偏好如何?消费力如何?

      2. 场景运营:公司/家 * 饭点/下午茶/夜宵 * 周末/工作日

      3. 流失预测:流失概率标签,以及流失原因分析

     

    case6 用户画像在金融领域应用

    案例地址:https://mp.weixin.qq.com/s?__biz=MjM5ODE1NDYyMA==&mid=2653382844&idx=1&sn=62488a43265862a24540d5ef2ac78dc3&chksm=bd1cd0af8a6b59b9369a14e2fb4ff89172735150d34cad81dd10b96679c02428161f2f9d732c&mpshare=1&scene=2&srcid=1006yhaOPqR4RcidWS0ydvVO&from=timeline#rd

    1. 目标:银行、保险、证券,找到目标用户;并参考用户画像,设计营销方案

    2. 数据源:

      1. 社交媒体信息

      2. 呼叫中心

      3. 垂直论坛:汽车、母婴等

      4. 移动轨迹信息:住宅区、消费地区、工作地区等,同时可以作为对用户信息的检验(是否是真实的高收入人群?)

      5. APP使用信息:与运营商、推送SDK公司等合作

    3. 用户画像主要维度:

      1. 人口属性:能定位到用户是谁的信息。包括姓名、性别、电话号码、邮箱、家庭住址等

      2. 信用属性:描述收入和收入潜力情况的信息。包括职业、收入、资产、负债、学历、信用评分等

      3. 消费特征:描述消费偏好,用户找到高频和高价值客户。包括差旅人群、境外游人群、旅游人群、餐饮用户、汽车用户、母婴用户、理财人群等

      4. 兴趣爱好:用户定向营销活动。包括旅游爱好者、科技发烧友、健身爱好者、奢侈品爱好者等

      5. 社交信息:用户的社交媒体评论,用于了解到用户的近期需求,如在哪旅游、是否正要买车

     

    caseN 小案例

    1. 宝马广告投放:宝马X1今年刚上市,他们把去年购买X1的用户都上传上来,我们会分析这样的用户在哪些方面是有特性的,比如年龄段、地域分布、收入、偏好。有了这样的分析后,我们可以选择相应的人群,基于历史的偏好、特征,然后再去投放;如果中间我们会发现人群量不够,最初选择10万人可以放大到100万人。最后输出到媒体、RTB等渠道商。做预算,看效果,将效果数据回流,再去迭代,以进一步提高投放的精准率(参:http://www.sohu.com/a/192628425_770765

    2. 餐饮店:

      1. 用户画像学生为主:寒暑假为营业淡季,需要调整策略;九月份需要做顾客重召回

      2. 用户画像白领为主:价格不敏感;考虑办公室饮食场景;考虑减肥餐以及包月餐等

    展开全文
  • 卡尔曼滤波在卫星红外、微波海表温度数据融合中的应用pdf,卡尔曼滤波在卫星红外、微波海表温度数据融合中的应用
  • “智慧法院”数据融合分析与集成应用秦永彬1,2, 冯丽1, 陈艳平1,2, 黄瑞章1,2, 刘于雷3, 丁红发11 贵州大学计算机科学与技术学院,贵州 贵阳 55002...

    “智慧法院”数据融合分析与集成应用

    秦永彬1,2, 冯丽1, 陈艳平1,2, 黄瑞章1,2, 刘于雷3, 丁红发1 

    1 贵州大学计算机科学与技术学院,贵州 贵阳 550025

    2 贵州大学贵州省公共大数据重点实验室,贵州 贵阳 550025

    3 多彩贵州网有限责任公司,贵州 贵阳 550000

    摘要针对“智慧法院”建设中存在的共性问题和实际需求,介绍了“智慧法院”数据融合分析及集成应用示范平台的架构。从司法大数据深度语义学习、基于知识图谱的司法数据融合、司法数据安全防护与隐私保护以及司法数据融合分析的可视化4个方面,探讨了“智慧法院”建设中共性关键技术的研究思路和实现路径。最后,以证据抽取、犯罪行为链构建和法律条文推荐为例,展现了数据融合分析及集成应用示范平台的应用效果。研究成果对实现以法院司法数据为核心的新一代“智慧法院”建设目标具有一定的参考价值。

    关键词: 智慧法院 ; 知识图谱 ; 数据融合 ; 融合分析应用

    640?wx_fmt=jpeg

    论文引用格式:

    秦永彬, 冯丽, 陈艳平, 黄瑞章, 刘于雷, 丁红发. “智慧法院”数据融合分析与集成应用. 大数据[J], 2019, 5(3):35-46
    QIN Y B, FENG L, CHEN Y P, HUANG R Z, LIU Y L, DING H F.“Intelligent Court” data fusion analysis and integrated application. Big Data Research[J], 2019, 5(3): 35-46

    640?wx_fmt=jpeg

    1 引言

    2016年,《国家信息化发展战略纲要》将建设“智慧法院”列入国家信息化发展的战略中。同年,《“十三五”国家信息化规划》中明确指出:支持“智慧法院”建设,推行电子诉讼,建设完善公正司法信息化工程;提高案件受理、审判、执行、监督等各环节的信息化水平;推动执法司法信息公开,促进司法公平正义。目前,各级人民法院以“智慧法院”建设为依托,加快推进人民法院信息化建设,取得了重大进展:各级法院都在积极推动互联网、物联网、大数据、人工智能与法院工作的深度融合,围绕“智慧法院”的业务办理、信息检索、文书审阅、案件预测、智能咨询等信息化应用,不断地进行探索和实践;各级法院的全业务网上办理的网络化格局基本形成;利用互联网推动全流程依法公开的阳光化目标基本实现。这些进展为人民法院的智能化建设打下了坚实基础。

    在此过程中,以大数据和人工智能技术为支撑的“智慧法院”系统不断发展,有效推动了司法领域的智能化实践。例如,以人工智能为基础的庭审语音转文字、裁判文书或起诉书的自动生成、法律文件辅助审阅、裁判文书证据材料自动抽取等,为“智慧法院”的审判质量评估、精准分案、自动量刑和辅助审判等应用需求提供了核心技术支撑。基于大数据和人工智能的辅助办案可以显著提高法院办案的工作效率,一方面可以帮助当事人形成最佳的诉讼策略,节约诉讼成本;另一方面,可以帮助法官实现同案同判,确保判决一致性,增强司法公信力,确保司法公平正义。此外,法院通过人工智能客服机器人,可以为公众提供在线的实时法律咨询服务。

    然而,“智慧法院”建设涉及的数据来源广泛、结构复杂、动态实时,法院数据在对数据进行有效利用的过程中急需解决以下问题:

    ● 数据来源和存储结构的多样性造成了部门内部或体系内部的“数据孤岛”;

    ● 数据具有鲜明的领域性和专业性,数据特征隐藏较深,导致数据挖掘分析性能较差;

    ● 由于数据的多源异构性,司法知识体系难以构建;

    ● 数据涉及面广、敏感度高,导致数据安全保障和隐私保护问题迫切。

    笔者团队针对这些问题,基于贵州省高级人民法院的司法大数据,开展了理论研究和技术攻关,探索了司法领域数据的融合分析和集成应用方法,目标是通过整合法院现有的审判数据、业务数据以及人员数据等,提升法院审判过程的智能化水平,实现法院的自动分案、人案关联分析、审判态势数据智能统计与分析等业务需求。本文分析了“智慧法院”在司法数据融合、数据安全与隐私保护、数据可视化方面的研究现状,针对“智慧法院”建设中存在的实际问题,提出了司法大数据深度语义学习方法、基于知识图谱的司法数据融合方法、司法数据安全防护与隐私保护以及数据融合分析的可视化应用示范的研究思路和技术路线;并以证据抽取、犯罪行为链构建和法律条文推荐为例,阐述了本文所做的研究在实际应用中的有效性,为审判工作的智能化、精细化提供了有效的支撑。


    2 国内外研究发展


    “智慧法院”是2016年提出的司法领域的信息化发展战略,到2018年,智慧法院3.0版形成,相关研究与应用取得了重大进展。近年来,以大数据和人工智能技术为基础的应用已经在政府治理、生态建设、创新平台、智慧城市等领域取得了广泛应用,也为法院业务办理、信息检索、文书审阅、案件预测、智能咨询等信息化应用带来了巨大便利。早在1986年,美国的法律体系中就出现了人工智能一词,现如今,美国的机器人律师已经可以提供简单的业务办理服务,这标志着人工智能在法律实践中迈出了重要一步。Remus D等人认为机器人正在慢慢取代律师,Payne S等人认为计算机技术在法律行业的应用对法学教育产生了重大影响。国内学者对“智慧法院”的研究早在其概念提出之前就开始了。2001年,张保生从法律推理与人工智能的关系的角度探讨了人工智能法律系统的历史及发展动力。2018年,季卫东指出科技手段只是司法实践中的辅助手段。郝铁川指出人们应理性对待人工智能在司法应用中的作用。

    在司法数据融合方面,目前采用的较多的是传统信息检索技术,通过向量空间模型提供面向文档的分析。该技术的缺点是不能提供面向文档内容的信息融合与分析。传统的信息提取、知识融合方法性能相对偏低。为有效地支撑法官画像、自动量刑、法律条文推荐等面向文档内容的分析与应用,需要充分挖掘句子的结构信息和语义特征,提升知识融合的性能。在已有研究中,获取句子结构特征的方法主要有4类:N元语法。另外,Jacobs D W等人提出了一种广义多视角的特征提取方法。Zhou J T等人提出一种域自适应学习方法。Zhu Y等人通过文本语义提升图像特征抽取的质量。Liu K等人提出一种基于重构错误累计矢量的跨媒体融合方法。Zhang X M等人提出一种基于跨媒体数据协作的社会图像标注方法。在特征选择方面,Liu M等人将链接限制条件作为区分能力的正则项,提出一种基于成对限制稀疏学习的特征方法。相对于其他领域的数据融合,司法数据融合主要聚焦案件分析。国内针对司法数据融合的研究相对来说还比较少。

    在数据融合与应用的过程中,数据的安全与隐私保护也是必须解决的问题。匿名和泛化是用于隐私保护的经典方法,能够在保证对外发布数据真实性的同时保护隐私信息。Amro B等人提出了一种基于用户偏好的假名机制,该机制通过用户自发地更换假名的方式,达到隐私保护的目的。Ghinita G等人利用k-匿名的思想,用空间匿名区域的位置代替用户的精确位置,从而达到隐私保护的目的。Wu S等人将k-匿名应用于众包数据库中的数据隐私保护。目前,k-匿名采用泛化技术对原始数据进行匿名处理,当属性的维数较高时,为满足泛化要求,必将导致更多的信息丢失,使得发布的匿名数据可用性变差。

    数据可视化是数据应用示范的重要途径,可视化技术将数据挖掘过程中抽取出的潜在的、有价值的知识展示给用户,从而满足用户的不同需求。可视化数据挖掘技术已经成为数据挖掘领域的研究热点。汪加才等人设计了一个交互式可视化数据挖掘系统,允许用户以交互的方式从标记图或距离图中选定感兴趣的区域,加以深入分析。陈涛等人研究了关联数据的可视化技术。袁海等人研究了中文文本的可视化技术,文本可视化提高了数据的可视化效率和转换成利益的效率。

    在司法领域的数据融合分析与集成应用过程中,还没有形成相对系统化的研究体系或应用体系,许多针对司法文本的分析大多使用开放域或传统的文本分析的方法。目前,也没有针对司法数据的专门的数据安全和隐私保护的体系或模式。


    3 “智慧法院”数据融合分析及集成应用示范平台架构


    “智慧法院”数据融合分析及集成应用示范平台架构如图1所示。以贵州省高级人民法院为例,通过分析其在“智慧法院”建设过程中存在的实际问题和对智慧办案、智慧办公、智慧运维、智慧监督的需求,本文重点研究“司法大数据深度语义学习”“基于知识图谱的司法数据融合”“司法数据安全防护与隐私保护”和“司法数据融合分析的可视化”4个内容。为贵州省高级人民法院面向“数字法官-金字团队-智慧法院”的司法大数据应用提供理论依据和技术支撑。


    640?wx_fmt=jpeg

    图1   “智慧法院”数据融合分析及集成应用示范平台架构


    3.1 司法大数据深度语义学习 


    司法数据包含各种结构化和半结构化数据。司法数据中的各类文档因撰写格式、使用措辞、时间、法院甚至法官和团队的不同而存在很大差异。这种差异会导致相似案件的裁判文书在表达方式上存在明显的区别。大量的案件信息隐藏在非结构化的办案文件中,例如,裁判文书中的案情特征对法条推荐结果、案件审判结果有显著影响;涉及具体的案件审判时,裁判文书中的案情特征的顺序可能直接影响案件的审判结果;相同特征的案件,由于案情特征序列的不同也可能导致审判结果的不同。司法数据融合分析的目标是有效地挖掘法院多源异构数据中的隐含知识,以支撑法院的数据应用。为了支撑“智慧法院”司法数据的融合应用,应重点研究针对司法数据的深度语义学习方法。通过深度学习模型,挖掘文本中的语义信息,识别其中的案件知识要素,从而有效地解决数据融合过程中的语义理解问题。

    3.2 基于知识图谱的司法数据融合 

    在司法数据深度语义分析的基础上,构建“智慧法院”数据知识图谱,融合司法数据中的案件要素,并研究案情的演化分析方法。司法数据多元化、深度化、层次化的特点导致案件的演化分析和案件知识的转化非常困难。针对这些特点,笔者采用了基于知识图谱的司法数据融合方法。在知识图谱构建的过程中,需要研究不同粒度实体的提取方法;然后,识别实体之间的关联关系。在实体识别和关系识别的基础上,构建“智慧法院”应用中的司法大数据知识图谱。在融合与分析的过程中,各类算法需要具备良好的可扩展性和实时性,满足系统平台对知识图谱的实时检索、快速更新处理的需求。在应用过程中,应通过深入分析多层次知识图谱的演化性质,支撑法院审判工作中的案情演化分析。

    3.3 司法数据安全防护与隐私保护 

    “智慧法院”信息化系统中积累了大量的司法敏感数据和个人隐私数据。数据安全防护和个人隐私保护是“智慧法院”建设与应用的关键基础,也是数据融合分析的核心需求。在数据融合过程中,需要精确定位案件数据中敏感数据的位置和安全需求等级,设计针对司法敏感数据的访问控制、数据传输安全、数据访问接入安全认证、个人隐私数据自动化识别、隐私度量等防护方案;通过数字签名、访问控制、对称加密、Hash算法等数据安全防护中常用的方案,结合差分隐私、隐私量化、匿名技术、泛化技术等隐私保护技术,构建司法领域的数据安全和隐私保护体系,实现多源数据融合过程中的数据安全防护与隐私保护。

    3.4 司法数据融合分析的可视化 


    针对贵州省高级人民法院建设“数字法官-金子团队-智慧法院”示范应用的需求,借助深度语义分析、特征画像、法院知识图谱构建和可视化等关键技术,实现从“法官”到“团队”再到“法院”的可视化展示及全方位评价,从而支撑“精准分案”和“智能化推荐”等应用,提高司法审判的效率和质量,促进专业化审判团队的发展。


    4 共性关键技术

    为了支撑“智慧法院”建设中的数据融合分析与集成应用研究,笔者提出了基于深度神经网络边界组合实体识别方法、多通道实体关系识别方法、证据识别方法、犯罪行为识别方法和句法要素识别方法;构建了以犯罪行为为中心的知识图谱,有效支撑了审判质量评估、精准分案和自动量刑等具体应用需求。相关研究内容为“智慧法院”数据融合分析及集成应用示范提供了理论依据和技术支持。其中涉及的共性技术和研究思路,具体如下。

    4.1 司法数据的特征表示技术 

    传统司法数据的特征表示主要采用向量空间模型,该模型把文档空间映射到一个测度空间,文档的相似度对应测度空间中文档向量的距离。法院各类文书的异质性(如产生的时间不同、法院不同、法官不同等)使得传统的向量空间模型容易产生高维的稀疏特征,不利于针对司法文档的语义分析。为此,本文研究了一种能够处理异质数据的特征抽取与自适应匹配的方法,即基于深度语义特征提取技术。该方法利用深度学习方法挖掘司法大数据中的深度语义特征,可以有效支撑司法数据知识图谱中的案件要素抽取。其技术路线如图2所示。


    640?wx_fmt=jpeg

    图2   深度语义特征提取技术路线

    深度语义特征提取技术的研究思路如下。

    ● 语义结构空间生成:利用神经网络把浅层特征映射到一个深度语义空间,利用特征组合产生潜在的语义结构空间,提高数据可分性。

    ● 语义结构排序:通过计算候选语义结构和目标语义结构的距离,进行排序。

    ● 特征选择:根据句子的结构信息和语法功能,利用先验知识操作划分后的特征集合。

    ● 特征画像:针对法院的各知识要素,建立实体的特征体系,建设特征实体算法库,实现准确、高效的法院大数据的实体画像拓扑集。

    4.2 基于知识图谱的司法数据融合技术 


    基于知识图谱的司法数据融合技术实现过程共分6个步骤,如图3所示。第一步,在实体特征画像的基础上,对相似实体进行合并和消歧。第二步,识别实体的关联关系,建立表述实体间关系的知识图谱。第三步,基于同类实体之间的强关联关系,合并同类实体,构建多粒度实体。第四步,挖掘多粒度实体之间的关联关系,构建多层次知识图谱。第五步,利用时间特征,针对实体进行特征的演变识别,利用动态数据的进化算法进行知识进化学习。第六步,利用知识图谱的链接预测方法,衡量实体间的全局和局部相似度,推断实体与实体间的间接关系。

    640?wx_fmt=jpeg

    图3   基于知识图谱的司法数据融合技术路线

    4.3 融合过程中的数据安全与隐私保护技术

    数据安全与隐私保护技术的研究思路如图4所示。第一步,制定对法院大数据进行数据安全和隐私保护数据的分级、分类标示方法;第二步,在数据安全防护中采用数字签名、对称加密、Hash算法等技术,在隐私保护中采用隐私风险控制、隐私量化、匿名技术、泛化技术等;第三步,根据数据安全标示确定数据的安全访问权限,确定数据脱敏方法,并进行数据的并行脱敏处理;第四步,根据多源异构数据的索引结构和过滤算法,建设脱敏后数据的索引方法。


    640?wx_fmt=jpeg

    图4   数据安全与隐私保护技术路线

    4.4 “智慧法院”的可视化应用示范 

    “智慧法院”的可视化应用示范平台工作流程如图5所示。第一,通过法院数据融合与分析平台进行集成数据标准管理,通过特征管理系统建立实体特征体系;第二,通过数据抽取、转换、加载(ETL)和应用程序编程接口(API),实现法院内部数据与外部数据的实时与批量导入,并进行初步的数据整合;第三,利用基于知识图谱的分析技术、实体特征体系、集成数据标准进行数据融合与分析;第四,将分析后的数据导入基于搜索引擎(Elasticsearch,ES)、图库的检索系统,通过统一的数据服务接口对外提供数据服务;第五,法院数据可视化与服务支撑平台、法院数据融合与分析平台进行数据的分发与回写。


    640?wx_fmt=jpeg

    图5   “智慧法院”的可视化应用示范平台工作流程

    5 应用案例


    以证据抽取、犯罪行为链构建和法律条文推荐为例,本节简单介绍笔者提出的“智慧法院”的数据融合分析与集成应用的研究进展和应用效果。

    5.1 证据抽取 

    根据法官办案的要求,裁判文书中的证据条目过少或过多会导致量刑中的轻判或重判。对裁判文书中的证据进行自动抽取,并与案件卷宗中提供的证据列表进行一一对比,可以对案件的审判质量进行评估。在实现中,首先选择650篇裁判文书,标注其中的证据部分①。然后,采用基于深度神经网络的命名实体识别技术进行证据的自动抽取。研究发现,裁判文书中的证据在表达上与传统命名实体存在一定的差异,其结构性比较强、字数多、中心词明显(如××复印件、××结婚证等),而且存在互相嵌套的问题。传统的序列标注模型(如隐马尔可夫模型、条件随机场、循环神经网络等)主要依赖局部特征,不能有效识别嵌套证据,在证据抽取中的效果比较差。根据裁判文书中证据条目的文本特点,笔者提出了基于神经网络的边界组合证据抽取模型。该方法首先利用循环神经网络模型(Bi-LSTMCRF)识别证据的边界(如边界的开始、边界的结束),然后通过组合证据的边界产生证据候选词,再根据证据候选词的上下文特征,采用卷积神经网络(convolutional neural network,CNN)识别出其中的正确证据。与直接使用Bi-LSTM-CRF模型的方法相比,该方法能够在性能上提升10%以上的F值。

    5.2 犯罪行为链构建 

    在法院具体的案件审判工作中,需要对案件的案情进行分析。裁判文书中的案情描述和预测案件涉及的相关法条、罪名等信息对辅助法官办案有重要的作用。在传统的审判辅助工作中,司法人员主要采用案件的文本特征进行法条、量刑、案由识别。在这种情况下,通常不考虑案情要素之间的顺序关系。在实际应用中,案件要素之间的时间序列、行为序列会直接影响最终的审判结果。对于相同案件要素的案件,案情要素序列的不同会导致审判结果的不同。比如,“强奸杀人”和“杀人辱尸”,犯罪行为的顺序不同会导致判决结果的差异。针对这一问题,在知识图谱构建中,笔者通过对案情行为序列关键词进行提取,建立与之对应的犯罪“行为链”,展现案情的主要情况、时序关系和发展趋势,“行为链”以“行为词”为中心,围绕“行为词”提取关键案情要素特征,通过行为序列构建行为词与其他以“行为”为中心的特征词之间的关联关系,进而构建以“犯罪行为”为中心的司法数据间的内在关联和知识体系。如此,笔者可以借助犯罪“行为链”实现对案情语义的深层分析。

    5.3 法律条文推荐 

    传统的法律条文推荐主要依靠法律文本中的案情特征进行预测。这种情况无法考虑裁判文书中案情要素的时间特征。在裁判文书分析中,案件要素的时间特征对审判结果会有较大的影响。为了有效地利用案件要素的时间信息提升法律条文预测的性能,辅助法官办案,笔者利用案情的事实描述和犯罪行为序列预测案件涉及的相关法律条文,从而验证基于犯罪行为序列的法律条文预测的有效性。在实现上,笔者利用TextCNN模型对裁判文书中案情描述部分的信息进行处理,获得文本中的语义信息。由于卷积神经网络模型不能有效地获取文本中案情要素之间的语义依赖关系,笔者采用BiLSTM模型对文本中抽取的犯罪行为过程进行建模,获取裁判文书中案情要素之间的时间特征,然后与TextCNN模型的输出进行拼接,最后通过全连接层和softmax函数得到法律条文的预测结果。与直接采用TextCNN的方法相比,该模型在法律条文的推荐上能提升6%的F值。

    6 结束语


    “智慧法院”的建设是司法改革的重要抓手。本文基于贵州省高级人民法院的案件数据,探索了司法大数据深度语义学习方法、基于知识图谱的数据融合与分析、司法数据安全防护与隐私保护等围绕智慧法院应用的相关研究,并提出了研究思路和技术实现路径,以期帮助法院实现从信息化到数据化、智能化的提升,实现以法院司法数据为核心的新一代的“智慧法院”建设。此外,笔者重点阐述了以数据为核心的应用理念,从司法领域的层面为政务领域大数据的应用提供了多源异构政务数据的融合分析与应用案例。

    作者简介

    秦永彬(1980- ),男,博士,贵州大学计算机科学与技术学院教授,主要研究方向为大数据治理与应用、多 源数据融合与应用、企业信息化与电子政务。

    冯丽(1993- ),女,贵州大学计算机科学与技术学院硕士生,主要研究方向为自然语言处理、数据融合分析。

    陈艳平(1980- ),男,博士,贵州大学计算机科学与技术学院副教授,主要研究方向为数据融合分析、自然 语言处理、知识发现。

    黄瑞章(1979- ),女,博士,贵州大学计算机科学与技术学院副教授,主要研究方向为数据融合分析、文本 挖掘、网络挖掘、知识发现。

    刘于雷(1978- ),男,多彩贵州网有限责任公司互联网大数据研发部负责人,贵州省互联网大数据与传播应 用研发中心副主任,主要研究方向为互联网大数据应用、数据融合分析。

    丁红发(1988- ),男,贵州大学贵州省公共大数据重点实验室博士生,主要研究方向为隐私保护与数据安 全、密码算法及应用。

    《大数据》期刊

    《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。

    640?wx_fmt=jpeg

    关注《大数据》期刊微信公众号,获取更多内容


    往期文章回顾

    边缘计算使能智慧电网

    基于边缘计算的森林火警监测系统

    CPU-MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法

    智能电网数据资产的风险管理

    区块链在智慧农业中的应用展望

    证券期货行业监管大数据治理方案研究



    展开全文
  • 知识点与教学案例融合的教学方法——以Android应用开发为例.pdf
  • 人工智能与电气工程自动化的融合与实践应用——以汽车电气工程为案例.pdf
  • 案例来源:@阿里巴巴机器智能 案例地址:https://mp.weixin.qq.com/s/OF51cPHD7C3rfw-WW5NA3Q   导读: 为A电商做年货节品牌营销,目标是识别目标受众,广告投放后由“机会人群”转向“兴趣人群”的比例更高。 ...

    案例来源:@阿里巴巴机器智能

    案例地址:https://mp.weixin.qq.com/s/OF51cPHD7C3rfw-WW5NA3Q

     

    导读:

    为A电商做年货节品牌营销,目标是识别目标受众,广告投放后由“机会人群”转向“兴趣人群”的比例更高。

    解决方案是:

    第一步:多方向人群扩散。通过兴趣偏好、品类偏好、竞品受众、搜索人群、流失人群、lookalike人群 六个方向获得潜客名单,去重后得到候选用户集

    第二步:人群优选算法。以已购过A品牌的用户为正样本,购买过其它品牌的用户未负样本,训练分类器。

    第三步:年货人群模型。专门为年货场景训练的分类模型。

    第四步:模型融合与预测。

    效果是“机会人群”到“兴趣人群”的转化率提高了47%。

     

    0. 背景:

        1)广告分成品牌广告与效果广告,效果广告关心效果,即当期的转化率;品牌广告关心曝光与影响力,即提高未来的转化率。传统品牌广告的弊端在于难以量化效果,阿里巴巴由于能监控到广告投放与用户行为的链路,因此能够对品牌广告的营销效果进行量化

        2)阿里巴巴将用户对品牌的感知区分为Opportunity(机会)、Awareness(认知)、Interest(兴趣)、Purchase(购买)、Loyalty(忠诚),“O→I”的转化衡量品牌广告的效果,即机会人群转化为兴趣人群的比例

        3)以A品牌年货节品牌推广活动为案例,利用本文算法挖掘目标潜客,相对于传统根据业务规则圈定的目标潜客,“O→I”转化率提升了47%

     

    1. 目标:找到A品牌目标潜客,提高品牌广告投放的“O→I”转化率,从而提升A品牌的消费者资产

     

    2. 传统业界方法

        1)标签扩散:根据已有用户画像,拓展到具有相似用户标签的用户群

        2)基于标签的协同过滤

        3)基于社交关系的扩散

        4)基于聚类的扩散:根据用户画像进行聚类

        5)目标人群分类方法:以种子人群为正样本,随机其它对象为负样本,训练分类模型

     

    3. 多方向人群扩散+人群分类优选

        1)多方向人群扩散:探索6类方向,通过白盒条件筛选、黑盒模型预测的方式得到候选用户集,然后将用户集汇总后去重。

            a. 兴趣偏好方向:采用特征值TGI指数和TA浓度两个指标,得到各特征对于区分品牌偏好的有效程度,从而找到可以合理筛选出品牌目标用户的指标(TGI指数衡量特征值在品牌人群中的显著性,TA浓度衡量特征值在品牌人群中的覆盖率)

            b. 相关品类方向:(1)利用brand-user矩阵,采用jaccard相关系数计算品牌相关性;(2)利用user-category矩阵,采用关联分析得到各类目的相关类目

            c. 竞品人群方向:(1)竞品:A品牌主营类目下,top10的其它品牌为竞品;(2)人群流转分析:计算A品牌新增人群中多大比例来自竞品,判断该方向是否有效;(3)竞品人群转化模型:以来自竞品的人群为目标,挖掘用户在竞品的AIPL状态、退款、退货、评分、评价等特征,训练竞品人群转化模型。通过模型对竞品人群进行转换预测,实现人群扩散

            d. 搜索人群方向:(1)找到搜索关键词:综合考虑搜索词是否充分竞争以及本品牌在搜索词上是否有优势,一个搜索词引导到品牌的成交额占比越高,该搜索词越重要;(2)选择近15天搜索了关键词并点击了A品牌主营类目的用户作为扩散用户

            e. 流失人群方向:之前属于品牌人群而现已流失了的用户,进行扩散召回,包括近半年从IPL状态流失的用户和近1个月从A状态流失的用户

            f. 同好人群方向:找到与种子用户相似度最高的topN用户,相似度计算的方法有两种 (1)用户偏好的类目向量、品牌向量组合;(2)将user-item表示为二部图,基于graph embedding方法生成用户向量

        2)人群分类优选:

            a. 评估方法:PredictTA TopNPrecisio指标,表示优选的TopN人群中品牌目标人群的占比,该指标越大说明模型预测效果越好

            b. 样本选择:正样本为A品牌已购人群(对于小品牌,可能需要加入兴趣人群等扩充正样本);负样本为全网其它品牌的已购人群(如果是全国随机其它人群,容易踩到很多特征稀少的用户)

            c. 特征工程:(1)数值型特征离散化:年购物天数、近30天订单数等特征进行等距离散,提高模型稳定性和效果;(2)枚举型特征值筛选。汽车型号、收货省份等特征长尾分布非常明显,筛选出与目标品牌相关的特征值;(3)特征编码:onehot化;(4) 稀疏特征embedding:如品牌id、类目id,以品牌作为word,活跃用户的行为作为doc,利用word2vec的方法做词嵌入;(5)特征选择

            d. 模型训练:(1)LR作为baseline;(2)rf,效果不好,并且特征重要性只能精确到特征而不能到特征值维度,去除;(3)PS-SMART,基于PS架构的GBDT模型,效果较lr好

            e. 训练效果:

            f. 模型预测:使用训练好的人群优选模型,对通过6个方向扩散的人群进行筛选,去掉预测分数小于0.5的用户

     

    4. 年货人群模型:屯年货是一种特殊的消费场景,与日常消费行为不同,因此需要单独建模

        1)样本选择:以农历时间为记,选取去年同期前一个月有行为的用户作为样本。根据这些用户在去年同期到元宵节的行为打正负样本标识,转化到品牌PL状态的用户为正样本,随机采用同等数量的其他用户为负样本

        2)特征工程:

            a. 人群属性特征

            b. 人群偏好特征:偏好品牌、生活标签、偏好类目、及偏好品牌等特征

            c. 品牌主营类目行为特征、品牌相关年货类目行为特征:有行为的相关年货类目id、类目相关性等

        3)模型训练:PS-SMART算法作为分类器

        4)模型预测:圈选投放日期前1个月对品牌主营类目及相关年货类目有行为的用户,使用年货人群模型进行预测,去除预测分数小于0.5的用户,根据拉新目标去除品牌现有IPL人群

     

    5. 模型融合:

        1)根据日常人群优选模型和年货人群模型的PredictTA TopN Precision指标,确定目标人群中2个模型优选结果的占比,最终筛选出指定数量的投放人群,导入数据银行,供服务商同步到DMP进行品牌广告投放

        2)效果:品牌A根据本文模型筛选目标潜客,服务商根据策略中心找出A的目标潜客,分别在钻展投放。本文算法在“O→I”的人群关系加深率上提升了47%

     

     

     

    展开全文
  • 与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。 这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之...
  • 依据同构化基本原理,研究和发现了基于传统内部首尾排序算法的同构化特点与本质;进而,利用其同构化特点与本质,提出了几...同时,也为“程序设计”、“数据结构”的课程融合、教学改革、教育创新提供了重要研究案例
  • 电力行业与国民经济生活有着密不可分的关系,随着我国经济及人民生活水平的不断提升,各行各业用电量的增加,使得电力...通过典型案例来阐述电力行业与外部数据融合分析对企业数据资源价值体现和深化应用的探索研究。
  • 在快速发展的同时,西城区金融街街道也面临着一个巨大的难题:数据丰富却管理无序,业务数据相关联系却又彼此割据,致使街道相关工作人员难以进行有效管理。 金融街街道办事处委托超图信息项目团队基于SuperMap GIS...

    作为展示首都形象的一个窗口,近年来,北京市西城区金融街街道辖区发展迅猛,已成为首都功能核心区的重要组成区域。在快速发展的同时,西城区金融街街道也面临着一个巨大的难题:数据丰富却管理无序,业务数据相关联系却又彼此割据,致使街道相关工作人员难以进行有效管理。

    金融街街道办事处委托超图信息项目团队基于SuperMap GIS基础软件平台,建设了“三库、一平台、两应用”的街道大数据应用平台,通过“一张图”,使街道各级用户直观掌握辖区人、地、物、事、组织等数据情况,解决了街道层面数据割据、难于可视化研判等问题,实现街道数据的整合共享,体现了街道政务数据的地理智慧,助力金融街城市精细化治理。

    三库:即聚数据,建设街道数据库群,即地理信息库、基础数据库、业务数据库。

    一平台:即管数据,数据管理更新系统。

    两应用:即用数据,二维应用系统(金融街街道大数据分中心)、三维展示系统(金融街街道大数据展示系统)。
    在这里插入图片描述

    一平台

    在这里插入图片描述

    两应用之三维展示系统

    平台功能

    金融街街道大数据分中心主要包括以下功能:

    地理智慧赋能街道掌握基础信息

    针对金融街平房院落数据多、平房院落数据难掌握、管理存在盲区、人员动态不能及时掌握等现状,系统采集了整个街道范围内平房院落布局内部公共设施、房屋用途,以及房屋户主、人口信息,做到院落详情全掌握、房屋数据底数清、住户关系全理清,完成人口社会关系“一张图”,实现院落视频实时调用。

    金融街基础数据库将辖区人、地、事、物、组织五大类数据进行了全面采集汇聚,根据需要分为社会发展、民生保障、城市运行、城市建设4大板块122小类377378条数据,并通过数据矢量化,将网格内的每条数据精准地落到金融街辖区地图上,实现了辖区信息资源的全覆盖,把道辖区资源全部兜在电子地图“网”中,将人、地、事、物、组织装在“格”内。
    在这里插入图片描述

    资源叠加图

    系统开发了街道数据仪表盘,能清楚知道平台人地事物企业的数据专题构成;了解各类型人口的构成比例;人口的年龄阶段分布情况;街道内房屋的用途情况;街道事件的区域分布情况;各社区物技防设施摄像头的数量;街道企业类型的构成。

    在这里插入图片描述

    仪表盘

    街道能掌握每个平房院落内各种重点关注人员的统计情况:掌握房屋和户主的关联情况;将每个户主落在其房屋上(院落概要图),放大院落显示院落的布局、院落的公共设施,同时掌握院落的详情、人口的详情,院落信息的统计(院落详情图)。点击每一个房屋面,会显示房屋内所有的居住人员信息、人员之间的相互关系(人口详情图)。
    在这里插入图片描述

    院落概要图
    院落详情图
    人口详情图

    在这里插入图片描述

    院落街景图

    此外,系统与“一窗式”办理数据深度结合,探索了以事件办理为驱动对人口动态进行跟踪掌握;系统梳理了街道人口数据迁徙动态,并结合流向图进行直观展示;系统还可查看城市历史影像图,做到历史可追溯、现在可分析、未来可预测。

    在这里插入图片描述

    人口迁徙图

    城市空间画像助力街道精细化治理

    系统建立精细化三维模型,真实还原街道原貌,构建城市三维空间画像,将街道重点关注的城市事件、城市部件信息在三维模型上显示;同时针对重点关注的视频监控信息落在三维模型上真实还原位置,实现整条街上所有视频画面实时查看显示,实现摄像头画面和三维模型紧密结合,对视频覆盖范围进行分析,覆盖不到的地方补充人力,搭建立体化治安防控体系。

    除了上述功能外,系统的三维功能还能可视化管理楼栋/单元的房屋与人口;精细化管理城市,详细了解街道、社区、网格内的概况信息,了解街道管辖范围内各层级的概要情况做到底数清;精确管理城市街巷,对街巷信息及责任人信息实现详细掌握。

    在这里插入图片描述

    楼盘表

    在这里插入图片描述

    视频布控

    在这里插入图片描述

    三维街巷图

    实现目标

    “多网”一口登入、资源共享:网格图层统一化

    项目建立了统一的电子地图:街道通过建立二维、三维地理信息系统,将城市管理网、社会服务管理网、社会治安网、城管综合执法网等纳入系统中,形成了街道统一的网格电子地图,实现了“多网”一口登入、资源共享。

    项目形成了统一的网格体系:根据“街巷定界、规模适度、无缝覆盖”原则,系统形成了街道为一级网格、19社区为二级网格、社区细分为41个三级网格的体系,实现了在一个网格系统、一张电子图上就可以定人、定物、定格、定位、定责。
    在这里插入图片描述

    网格资源统计图

    由“群众跑”到“数据跑”:公共服务高效化

    系统将“一窗式”服务数据纳入街道大数据平台,使得居民办事的信息永久留存在街道数据库中,实现了身份证、证件照等信息一次生成、多方使用,一库管理、互认共享,极大地简化了街道工作的流程,避免了居民重复提供资料信息等不必要的麻烦,实现了由“群众跑”到“数据跑”的质的飞跃。
    在这里插入图片描述

    个人办事图

    街道管理的“大脑”:系统集成由分散到合一

    系统基于SuperMap GIS 9D开发建立,按照国家标准、地方标准、行业标准,形成了街、村居一体化的规范标准,改变了街道以往多部门投入、多支队伍运维的现状,实现了一个系统全街道覆盖、一个数据库全资源统计、一张图全数据呈现的便捷管理。

    街道管理的“眼睛”:巡查范围由点位到全方位覆盖

    系统整合了辖区内监控头369个,构建起了以探头为“天网”、以人防为“地网”的“天罗地网”,初步实现了辖区范围内全域覆盖、全天巡查、全程追溯。
    在这里插入图片描述

    视频画面图

    街道管理的“心脏”:基础数据由孤立到共享

    通过整合数据资源,系统对接区级平台、街道内部综治实战指挥及红墙金服APP系统,探索出了基础数据即时采集、动态更新、统一管理、数据共享的工作机制,从源头上突破了“数据孤岛”的制约,极大地提升和丰富了街道管理规律性、动态性等问题的研判能力和预警功能。
    在这里插入图片描述

    系统关系图

    金融街系统建设通过对政府部门的数据资源及信息化系统的充分整合,实现了政府信息化资源的充分利用,通过资源的整合,形成了更为合理的信息资源管理方式,提升政府的信息化水平,也有效促进了政府部门之间的协同工作,节约了大量人力、物力、财力,提高了工作效率,工作质量,将大数据创造出的价值延伸至惠民利民领域。

    展开全文
  • 在数据挖掘应用中,数据的可用性往往是一个严重的问题。 例如,基本客户信息驻留在客户... 在本文中,我们概述了数据融合,介绍了基本术语和统计匹配方法,区分了内部和外部评估,并以一个更大的案例研究作为结论。
  • 案例来源:@AI科技大本营案例地址:https://mp.weixin.qq.com/s/_LuF4d0X_oHKuweo7Bt1Wg1. 知识图谱应用到推荐系统中的三种方式1)依次学习:先训练知识图谱模型,得到实体和实体关系的向量表示;再将该向量作为推荐...
  • MATLAB的强悍,在于数据加工、分析的同时给出信息的挖掘、演化与融合,它改变了我们对于数据的传统认识,让我们把数据重新定位到信息的定量化显现、信息显现自身所必须经由的行止与操作上来,不是静止的现成东西,...
  • 利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。有些人已此将大数据吹得神乎其神,好像它能成为万能药。其实,这只是大数据应用中的很小一部分。作为智能决策的支持手段之...
  • 该系统结合了数据融合和重建方法,可将所有数据整合到一个地质灾害的单一视图中在监视之下。 已经开发了一种用于联合优化控制功率和费率的分布式算法,该算法可以提高网络效用(> 95%)并最大程度地降低能耗(与之...
  • 多源数据融合:大数据分析的瓶颈

    千次阅读 2017-08-01 16:55:00
    利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。有些人已此将大数据吹得神乎其神,好像它能成为万能药。其实,这只是大数据应用中的很小一部分。作为智能决策的支持手段之...
  • 20.数据集成、数据整合、数据融合

    千次阅读 2019-07-19 09:35:56
    但是百度上都是应用步骤,应用方法,甚至有阿里、微软的广告 定义:数据集成是要将互相关联的分布式异构数据源集成到一起, 使用户能够以透明的方式访问这些数据源。 集成是指维护数据源整体上的数据一致性、提高...
  • 数据中台在真实案例中的应用原理

    千次阅读 2019-10-22 15:03:49
    数据中台数据中台解决什么功能快捷键数据中台能力数据中台构成 数据中台 不是产品,不是东西。 数据处理的总和业务平台,对接企业需求的前后端。 对海量数据进行采集、计算、存储、加工,同时统一标准和口径。 解决...
  • 知识图谱关键技术与应用案例

    万次阅读 多人点赞 2018-11-06 11:50:18
    本课程从知识图谱的历史由来开展,讲述知识图谱与人工智能的关系与现状;知识图谱辐射至各行业领域的应用;在知识图谱关键技术概念与工具的...作者简介:桂洪冠,达观数据联合创始人,中国计算机学会 CCF 会员,自然...
  • 智慧工厂解决方案(应用案例介绍)将智能传感器技术、工业无线传感网技术、国际开放现场总线和控制网络的有线/无线异构智能集成技术、信息融合与智能处理技术等融入到生产各环节。 与现有的企业信息化技术融合,实现...
  • 物联网应用案例

    千次阅读 2012-06-06 10:11:35
    物联网应用案例 物联网 物联网是在互联网基础上,将其用户延伸和扩展到任何物品,进行信息交换和通信的一种网络。  IBM前首席执行官郭士纳曾提出一个观点,认为计算模式每十五年就会发生一次变革。1965年前后...
  • 数据挖掘案例

    万次阅读 2018-10-19 16:32:48
    图中的左边是SPSS在1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘的6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。 1.理解商业问题。这需要大数据科学家和行业...
  • 但是将语音、视频和数据应用融合在一个统一的IP网络上所带来的方便性和优越性,大大推动了IP解决方案的不断发展。随着带宽管理和QoS解决方案的不断完善,也不断促进IP语音和视频等实时应用的推广。
  • 政府数据治理、融合的领导者 政府数据分析、应用的创新者 政府数据监管、保护的先行者
  • 作者:张涵诚 ...了解政府大数据应用案例数据价值释放的方法,将有利于激活沉睡的数据,释放政府数据价值。为此我们需要梳理下: 一、政府有哪些数据资产 政府拥有或控制,能够给政
  • 大数据在政府中的应用案例

    千次阅读 2018-08-14 12:30:16
    下面来看看大数据在政府中的应用案例。  大数据在政府中的应用案例 一、 工商部门主要对企业异常行为监测预警 依托大数据资源,建设市场主体分类监管平台,将市场主体精确定位到电子地图的监管网格上,并集成...
  • I. 知识图谱 应用案例

    千次阅读 2020-12-27 11:14:51
    知识图谱的应用案例 电商知识图谱的构建与应用 业务背景 复杂购物场景:新零售、多语言、线上线下相结合 电商交易逐渐转变为集B2C、B2B、跨境为一体,覆盖“实物+虚拟”商品,结合跨领域搜索发现、导购、交互多...
  • 普惠金融的愿景是将金融服务拓展到欠发达地区和低收入人群,我国从国家层面促进普惠金融的发展。但目前市场缺乏足够的能力来推进普惠金融,原因...结合电信数据,能对金融机构 新客营销、存客激活、风控管理 带来提升。
  • 贝叶斯算法及其应用案例

    千次阅读 2018-08-20 22:27:56
    #贝叶斯算法的应用(手写体字体的识别) from numpy import * import operator from os import listdir import numpy as npy import numpy class Bayes: def __init__(self): self.length=-1 self.labelcount=dict...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 31,120
精华内容 12,448
关键字:

数据融合应用案例