为您推荐:
精华内容
最热下载
问答
  • 5星
    520.23MB qq_17695025 2021-06-22 22:46:49
  • 随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。 四、Velocity:数据增长速度快,处理速度也...

    LESSON1

    1. 举例说明结构化数据、半结构化数据、非结构化数据的区别

    1. 结构化数据指的是数据在一个记录文件里面以固定格式存在的数据。结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS(关系型数据库) data;
    2. 半结构化数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表;
    3. 非结构化数据是指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织。包括所有格式的办公文档、文本、图片、图像和音频/视频信息等等。

    2. 请在生活中举出一个基于 "数字映像”探索或研究现实世界的实体或现象的例子,思考如何才能获得更准确的数字映像?

    数字映像,专业术语叫数字孪生(Digital Twin),数字孪生是指充分利用物理模型、传感器、运行历史等数据,集成多学科、多尺度的仿真过程,它作为虚拟空间中对实体产品的镜像,**反映了相对应物理实体产品的全生命周期过程。**Digital twin最为重要的启发意义在于,它实现了现实物理系统向赛博空间数字化模型的反馈。

    应用举例:

    1. 美国国防部最早提出利用Digital Twin技术,用于航空航天飞行器的健康维护与保障。首先在数字空间建立真实飞机的模型,并通过传感器实现与飞机真实状态完全同步,这样每次飞行后,根据结构现有情况和过往载荷,及时分析评估是否需要维修,能否承受下次的任务载荷等。
    2. 钢铁侠,托尼·史塔克在设计、改进和修理钢铁侠战衣的时候,并不是在图纸或实物上进行操作,而是通过一个虚拟的影像映射来辅助实现的。整个流程下来,一个可视化、智能化、数字化的设计场景清晰地呈现在工程设计者的眼前。[来源]
      在这里插入图片描述

    3. 什么是大数据的4V或5V特征,这一特征对大数据计算过程带来什么样的挑战?

    IBM提出了大数据”5V”特点:

    一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

    二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

    三、Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

    四、Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

    五、Veracity:数据的准确性和可信赖度,即数据的质量

    4V指的是Volume、Variety、Value、Velocity。

    大数据的4v特征及思考:从大数据的4V视角看文本分析

    4. 请分析相对于传统统计学而言,大数据在思维方式上的主要变化。

    大数据和统计的区别主要有两个方面:其一是数据分析时不再进行抽样,而是采用population(n=all);其二是分析方法,侧重所有变量之间的相关性,而不再根据背景学科理论筛选变量,进行假设检验。
    假设检验的结果只能不否认原假设,并不能得出完全支持的结论。但大数据的情况就不一样。对大数据进行分析时,我们并不需要对问题提出假设,而是通过算法找出变量之间的相关度。(?看不懂)

    5. 结合一个具体例子, 说明数据分析的一般过程。

    整个过程

    1)提出问题

    2)理解数据

    3)数据清洗(占绝大部分时间,直接影响后面结果)

    4)建立模型

    5)数据可视化

    知乎专栏:数据分析的基本过程附案例

    6. 如何理解数据科学?

    简单定义为:数据科学是从数据中提取有用知识的一系列技能和技术。

    这些技能通常用德鲁·康威(Drew Conway)创造的维恩图(或它的变体)来表示:

    在这里插入图片描述
    三个圆圈分别代表三个不同的领域:编程领域(语言知识、语言库、设计模式、体系结构等);数学(代数、微积分等)和统计学领域;数据领域(特定领域的知识:医疗、金融、工业等)。
    这些领域共同构成了定义中的技能和技术。它们包括获取数据、数据清理、数据分析、创建假设、算法、机器学习、优化、结果可视化等等。数据科学汇集了这些领域和技能,支持和改进了从原始数据中提取见解和知识的过程。
    数据科学也可以定义为:研究应用数据处理和分析方面的进展,为我们提供解决方法和答案的领域。

    LESSON2

    1. 大数据的主要来源有几种?

    1)交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。

    2)移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。

    3)人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。

    4)机器和传感器数据。来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(Io T)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。

    5)互联网上的“开放数据”来源,如政府机构,非营利组织和企业免费提供的数据。

    2. 大数据集成的基本原理有哪些?

    【背景】近几十年来,科学技术的迅猛发展和信息化的推进, 使得人类社会所积累的数据量已经超过了过去5 000年的总和,数据的采集、存储、处理和传播的数量也与日俱增。企业实现数据共享,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。因此,如何对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择。

    数据集成即将来自多个数据源的数据,如数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便为数据处理工作的顺利完成提供完整的数据基础。(《大数据导论 》武志学)

    3. 能否举例说明基于特征级别与基于语义的跨界数据集成方法的不同

    4. 数据质量有几种维度?分别是什么?

    主要有以下六个维度
    1)完整性 Completeness:完整性用于度量哪些数据丢失了或者哪些数据不可用。
    2)规范性 Conformity:规范性用于度量哪些数据未按统一格式存储。
    3)一致性 Consistency:一致性用于度量哪些数据的值在信息含义上是冲突的。
    4)准确性 Accuracy:准确性用于度量哪些数据和信息是不正确的,或者数据是超期的。
    5)唯一性 Uniqueness:唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。
    6)关联性 Integration:关联性用于度量哪些关联的数据缺失或者未建立索引。

    5. 你能提出一个金融行业领域中的数据获取的应用案例吗?

    银行的征信制度。 个人信用是指根据居民的家庭收入与资产、已发生的借贷与偿还、信用透支、发生不良信用时所受处罚与诉讼情况,对个人的信用等级进行评估并随时记录、存档,以便信用的供给方决定是否对其贷款和贷款多少的制度。

    6. 想实现对一-个城城市空气污染的检测和预测,请思考下述问题

    (1) 需要哪些数据?
    空气质量检测数据,包括地理位置,空气中有害气体含量

    (2)这些数据来源于何处?
    空气质量监测站和遥感卫星

    (3)这些数据应当以何种方式采集?
    传感器

    (4)这些数据应当经过何种预处理?
    数据清洗,数据集成,离散化和概念层次树

    (5)如何集成这些数据以支持空气污染检测和预测的任务

    7. 请分析数据预处理应当在数据集成之前还是之后进行,为什么?

    之前。不同来源、格式、性质的数据只有在经过预处理之后,才能在逻辑上或物理上有机地集中。

    8. 请分别举出在教育领域需要传统信息集成和跨界信息集成的实例

    9. 请分析在交通大数据(如GPS采集的数据、打车软件中记录的数据)中可能遇到数据质量问题以及这些数据质量问题的检测方法和修复方法。

    交通大数据中有关道路拥堵情况的采集主要依靠GPS和志愿者人工反馈,网络延迟将导致这些拥堵数据出现质量下降、可信度低的问题。

    10. 假设需要从大众点评、美团、百度外卖3个数据源收集北京市餐馆的信息,请简述可能会用到的数据集成步骤。针对上述场景,列举数据中可能存在的数据质量问题。

    1.与软件厂商合作
    作为企业,让厂商正确理解你的业务需求对自己有益无害。因为只有这样,厂商高管才能准确识别并集成所有你需要的数据点。
    2.定义划分集成优先级
    列出所有所需的数据集成任务,安排好部署计划。你的目标应该是在部署或正式投入使用阶段之前完成所有的数据集成活动,并界定增长数据的更新频率。除此之外,还要本着成本时间的节约,根据数据集成解决方案对其效益进行估测。
    3.选择合适的集成界面
    数据集成解决方案提供了两种数据界面:单向和双向。你需要知道应该应用哪种。
    单向界面中,数据仅从A点传送到B点,没有返回或来回的运动。在我们的B2B平台上,供应商能够追踪到商店的货运信息。库存、付款以及销售信息都被发送到B2B平台上,但没有任何数据返回到这些数据源。
    双向界面中,数据从一个应用传送到另一个应用,然后返回。在我们的平台上,如果部署了一个新的应用(如销售点,POS),产品数据就会从商品管理系统发送到POS上,然后销售数据又会从POS发回来。
    4.选择一款正确的接口媒体,最简单的不一定最好
    选择接口媒体一定要考虑未来需求和升级问题。数据集成有很多种方法–XML、逗号限定、电子表格、直接数据库连接等等;然而,最简单的方法不一定最适合你的企业,应该从多方面进行考虑,如可扩展性需求、数据容量和预算开销等。多年来,基于文本的集成一直很盛行,但是目前有很多企业都开始使用XML和直接数据库连接。
    5.监控流程,设置多个检测点
    对集成数据进行微调。对我们的B2B平台来说,数据集成在每天结束的时候都会进行,而只有增长的数据会被传送到服务器上。Hypercity的检测点从源系统开始,分布于各个级别。一些涉及销售数量和零售价格的问题在这些检测点中提出。B2B平台的提取上载阶段构成了第二个检测点,问题的答案会在这里出现。自动化系统会检测输入数据的准确性。为了避免错误的出现,相关用户会收到提示邮件,以确认全天的数据是不是正确上载、是不是需要纠错措施。
    6.保证数据的安全性
    根据风险级别设置安全政策。如果你只是在内网中转换数据,也许不需要加密;但如果你需要将数据对外传送,可能就要加以防范了。

    展开全文
    weixin_44986776 2021-03-15 22:11:25
  • 一、所属领域大数据应用开发工具,可用于企业信息化应用开发、企业数字化转型等。二、项目介绍1. 痛点问题当前,很多创新型的应用无法购买到可用的系统,如果在项目周期很紧急的情况下希望快速交付一...

    4941a02dfe505e0c11ac52ab3782fd69.png

    一、所属领域

    大数据应用开发工具,可用于企业信息化应用开发、企业数字化转型等。

    二、项目介绍

    1. 痛点问题

    当前,很多创新型的应用无法购买到可用的系统,如果在项目周期很紧急的情况下希望快速交付一个可以使用的原型系统,往往会遇到如下问题:不同客户系统之间存在巨大差异,大量需求要定制开发;市面上没有现成的应用程序可以直接购买;解决方案过于复杂和/或过于昂贵;难以低成本控制未来数字化的发展。

    此外,很多软件公司人力成本达到65%,且无法满足企业业务快速变化的需求,交付周期无法保证,后续系统维护成本很高,已经影响到企业的发展。因此,很多企业都希望能有业务人员或参与配合少量开发即可快速构建原型系统的工具,满足企业的创新应用。

    2. 解决方案

    本成果”大数据应用软件建模系统-DWF“(清华数为DWF)支持应用开发人员快速实现中小规模协作型应用,是一款基于模型驱动的代码开发工具,可以构建复杂的数据模型,可以实现数据模型、表单模型、功能模型、组织模型、权限模型、模型包管理功能,通过前、后端的脚本可以提供业务系统的扩展功能。DWF还提供对异构数据的集成能力,方便企业快速进行模型迁移和部署。

    DWF具有如下特点:

    一站式:DWF自身追求尽可能简单的结构,可在普通PC上部署启动,也可以在云计算或者容器环境下部署,又可以并入容器管理器中成为微服务。

    可配置:采用模型驱动的设计理念,通过组织建模、数据建模、表单建模、功能操作和权限控制直接建模产生系统本。

    低码量:基于模型开展有针对性的扩展编码工作,减少编码总量,降低开发难度。配合敏捷定制功能,大幅度减少了代码量和系统缺陷产生的可能。

    组件化:允许在线将全部或者部分模型从系统中导出独立的模型包,组合到其他DWF系统中,从而方便即时交付系统,即改即用,快速响应变更需求。

    a9d81cde5dbacc7320211f49590775bc.png

    图1. DWF提供的核心功能

    b569b60b428fe0da61857d449b477453.png

    图2. DWF主要特点

    3. 竞争优势分析

    清华数为DWF是第四代快速开发工具,国外的对标产品有Mendix、OutSystems、Appain,国内对标产品有搭搭云和阿里公司的宜搭产品。DWF是一个开放的低代码开发工具,其开放性优于对标产品:

    可配置性:采用模型驱动的设计理念,以配置的方式实现系统开发,降低后续测试、维护的成本;维护成本是传统方法工具的20%。

    低代码量:基于模型开展有针对性的扩展编码工作,减少编码总量,降低开发难度,可节省开发成本约80%。

    敏捷性:及时交付系统,及时修改系统,快速响应变更需求。

    DWF已经在航天、工程机械、复杂装备等行业企业得到应用;DWF是中国高等教育学会举办的全国高校教师教学创新大赛赛事“工业物联网和大数据应用创新大赛”的指定平台,清华应邀参加了2021全球数字经济大会-北京数字经济体验周-清华数为低代码大赛活动。

    bc50db7be046551c1944363dd5b61790.png

    图3. 用DWF开发的遥感数据管理系统示例

    4. 市场应用前景

    近几年低代码领域发展迅速,使用低代码开发工具已成为一种发展趋势,低代码平台市场规模巨大。AWS、Google、Microsoft、Oracle、西门子等巨头纷纷使用低代码开发平台或布局低代码市场,可见低代码开发已经成为大公司和资本布局的热点。

    本成果作为低代码开发平台,可广泛应用于软件开发、企业信息化应用开发、企业数字化转型、高职院校实训平台等,市场前景广阔。

    5. 发展规划

    未来将根据新的应用需求,不断发展完善大数据应用软件建模系统,并进一步提高交付效率,减少更改和运维成本,为软件厂商提供更好的开发工具。

    6. 知识产权情况

    围绕DWF已申请8项软件著作权。

    三、合作需求

    寻找应用场景,寻求资源对接,如软件公司、大型制造业企业IT部门、有意为大数据/物联网等专业建立实训平台的高等和高职院校等。

    四、团队介绍

    大数据系统软件国家工程实验室以创新驱动发展和自主安全可控为使命,以国家“十四五”规划为指导,面向重点领域和重大工程需求,建设大数据系统软件技术创新研发、技术转化和应用示范平台,支撑大规模多源异构数据一体化管理、交互式异构数据分析框架、数据可视化与智能数据工程、领域大数据应用开发运行环境、大数据混源软件可信验证等技术的研发和工程化。

    团队主要负责人:

    孙家广,中国工程院院士,清华大学教授、博士生导师,软件及其应用领域专家。孙家广长期从事计算机图形学、计算机辅助设计、软件系统建模与验证及软件工程与系统的教学、研究、开发,负责研制了具有我国自主知识产权的二维CAD系统、三维产品造型核心平台、产品数据全生命周期管理系统及企业信息化集成系统(EIS)等大型软件,并在数百家大中型企业中得到应用。

    王建民,清华大学教授、博士生导师,清华大学软件学院院长、国家杰出青年科学基金获得者。研究领域为大数据与知识工程,大规模并行计算模型,过程与行为数据分析与度量理论,非结构化数据管理技术与系统,产品生命周期管理技术与系统。

    五、联系方式

    E-mail:datapithu@mail.tsinghua.edu.cn

    来源:清华大学技术转移

    fff3dbcdc957d79691413aebd8bf516e.png

    展开全文
    tMb8Z9Vdm66wH68VX1 2021-10-20 00:03:53
  • 2020年12月31日,教育部职业技术教育中心研究所发文“关于受权发布参与1+X证书制度试点的第四批职业教育培训评价组织及职业技能等级证书名单的通知”。经过专家遴选、公示、核查企业信用和...

    2020年12月31日,教育部职业技术教育中心研究所发文“关于受权发布参与1+X证书制度试点的第四批职业教育培训评价组织及职业技能等级证书名单的通知”。经过专家遴选、公示、核查企业信用和涉税信息、复核等程序后,提请国务院职业教育工作部际联席会议审议,云创大数据顺利入选“第四批职业教育培训评价组织”名单,并获“大数据应用部署与调优”职业技能等级证书认证资质

    作为大数据和人工智能教育市场的代表品牌,云创大数据凭借雄厚的资质、强大的讲师团队、强劲的大赛助力、权威的教材体系、科学的实训平台、丰富的培训案例,以及精彩的校企合作等行业优势,广受业内专家和师生的好评。值得关注的是,全国技能大赛和多个省赛相继采用云创云计算实训平台或大数据实验平台作为比赛平台,并对该平台的特性和功能给予高度好评!

    目前,云创大数据已经启动教育部“1+X”大数据应用部署与调优职业技能等级证书试点工作,院校相关负责人可点击欢迎预登记教育部“1+X”大数据应用部署与调优职业技能等级证书试点工作进行快速登记!

    一、什么是“1+X”职业技能等级证书?

    为大幅提升新时代职业教育现代化水平,促进经济社会发展和提高国家竞争力提供优质人才资源支撑。2019年2月,国务院印发《国家职业教育改革实施方案》,明确提出从2019年开始,在职业院校、应用型本科高校启动“学历证书+若干职业技能等级证书”(简称“1+X证书”)制度试点工作。

    其中,“1”为学历证书,“X”为若干职业技能等级证书。学历证书全面反映学校教育的人才培养质量。职业技能等级证书是毕业生、社会成员职业技能水平的凭证,反映职业活动和个人职业生涯发展所需要的综合能力。“1”是基础,“X”是“1”的补充、强化和拓展,书证相互衔接融通正是“1+X证书”制度的精髓所在。

    二、什么是1+X大数据应用部署与调优职业技能等级证书?

    “大数据应用部署与调优职业技能等级证书”分初、中、高三个等级,定位于在分布式计算环境中安装部署以及调试优化大数据应用的职业能力,主要面向从事大数据应用系统规划、部署、配置、实施、维护、优化升级以及大数据应用系统监控、管理、资源协调等相关工作的人员

    该证书的核心技能点是大数据应用系统的安装配置、日常管理、故障排除、性能提升、安全防护、高可用性管理、应用变更管理、升级管理、服务资源管理等。证书的重要价值在于引领企业证书融通,整合企业证书与“1+X”证书,减少学生成本负担,减轻老师教学负担,降低学生就业门槛其考核内容如下:

    ● 初级证书

    1. 数据应用业务流程(数据采集、数据预处理ETL等)

    2. 配置管理(配置管理内容/方法/管理工具)

    3. 系统管理及日常巡检(系统管理对象、系统管理内容、系统管理工具、制度规范、日常巡检等)

    4. 故障管理(故障描述及记录、故障处理、故障后期管理等)

    ● 中级证书

    1. 应用开发(开发环境、Python编程基础)

    2. 性能管理(性能分析、性能监控工具、性能优化方式及手段) 

    3. 安全管理(资产安全管理、应用安全管理、安全威胁、安全措施)

    4. 高可用性管理(高可用性技术、业务连续性管理)

    ● 高级证书

    1. 高级应用开发(数据分析与可视化编程、开发测试)

    2. 应用变更管理(变更管理流程/概述、变更配置管理)

    3. 升级管理(Hadoop/Spark/Hive SQL/ZooKeeper升级管理)

    4. 服务资源管理(业务能力管理、服务能力管理、服务资源整合)

    三、“1+X证书实施主体是谁?

    试点院校是1+X证书制度试点的实施主体。根据教育部文件规定,试点院校以高等职业院校、中等职业院校为主,本科层次职业教育试点院校、应用型本科高校及国家开放大学等积极参与,省级及以上示范(骨干、优质)高等职业院校和“中国特色高水平高职学校和专业建设计划”入选学校要发挥带头作用。

    四、哪些人可以参加证书的培训和考核?

    参加教育部“1+X”大数据应用部署与调优职业技能等级证书培训和考核的主要人群是试点院校的在校学生,社会人员也可参与。具体参与方式请关注后续通知。

    五、意向院校如何预登记?

    意向参加教育部“1+X”大数据应用部署与调优职业技能等级证书试点工作的院校请尽快进行信息预登记,院校参加证书试点的申请将在后续按照教育部规定流程办理。

    请点击下方小程序卡片进入预登记页面按要求填写信息:

    六、云创大数据有哪些优势和案例?

    云创大数据成立于2011年3月,聚焦于大数据存储与智能处理业务,是集人工智能、大数据、云计算、云存储技术于一体的高新技术企业。公司在新三板挂牌,位居创新层,股票简称:云创数据,股票代码:835305。

    ● 雄厚的资质

    入选“教育部第四批职业教育培训评价组织”名单,并获“大数据应用部署与调优”职业技能等级证书认证资质

    工信部教育与考试中心授权的“工业和信息化人才培养工程培训基地”

    教育部学校规划建设发展中心认定的“大数据与人工智能智慧学习工场(2020)”,编码D-9999-YCC001

    ● 强大的讲师团队

    清华大学博士、中国大数据应用联盟人工智能专家委员会主任、中国信息协会教育分会人工智能教育专家委员会主任、云创大数据总裁刘鹏教授与罗圣美副总经理带领具有丰富实战经验的研发团队授课,以实战求真知,帮助学员切实提高动手能力与实战技能。

     强劲大赛助力

    第一届全国技能大赛云计算赛项,第46届世界技能大赛安徽省/江西省/吉林省/贵州省/海南省等多个省市选拔赛,以及国赛甘肃省/河北省云计算选拔赛等多项赛事中,均有云创大数据的助力。云创不仅为相关比赛提供了云计算实训平台,还为比赛的顺利进行提供了全程技术支持。

    ● 权威的教材体系

    覆盖大数据、人工智能的教材体系,以产业需求和学生就业为导向

    ● 科学的实训平台

    建立了包括大数据、人工智能等在内的平台体系

    ● 丰富的培训案例

    几十场培训班,2000多所高校师生参加,反响强烈

    2020年全国大学生暑期大数据与人工智能实训,报名超20000人

    ● 精彩的校企合作

    获批185个“教育部产学合作协同育人项目”

    与50余所院校开展合作

    联合培养应届毕业生平均薪资10000+

    七、联系方式

    咨询电话:13914108307(朱红明)

    或扫描下方二维码添加微信进行咨询:

    展开全文
    tkkzc3E6s4Ou4 2021-01-18 10:08:53
  • 近年来,随着大数据、云计算、区块链、人工智能等新技术的快速发展,这些新技术与金融业务深度融合,释放出了金融创新活力和应用潜能,这大大推动了金融业转型升级,助力金融更好地服务实体经济,有效促...

    bf12c8d998e45dfb5100773a964c01db.png

    近年来,随着大数据、云计算、区块链、人工智能等新技术的快速发展,这些新技术与金融业务深度融合,释放出了金融创新活力和应用潜能,这大大推动了金融业转型升级,助力金融更好地服务实体经济,有效促进了金融业整体发展。在这一发展过程中,又以大数据技术发展最为成熟、应用最为广泛。从发展特点和趋势来看,“金融云”快速建设落地奠定了金融大数据的应用基础,金融数据与其他跨领域数据的融合应用不断强化,人工智能正在成为金融大数据应用的新方向,金融行业数据的整合、共享和开放正在成为趋势,给金融行业带来了新的发展机遇和巨大的发展动力。

    1. 概述

    大数据涉及的行业过于广泛,除金融外,还包括政治、教育、传媒、医学、商业、工业、农业、互联网等多个方面。根据国际知名咨询公司麦肯锡的报告显示:在大数据应用综合价值潜力方面,信息技术、金融保险、政府及批发贸易四大行业潜力最高高。具体到行业内每家公司的数据量来看,信息、金融保险、计算机及电子设备、公用事业四类的数据量最大。可以看出,无论是投资规模和应用潜力,信息行业(互联网和电信)和金融行业都是大数据应用的重点行业。

    0d43a44902b4a71c92f4d47ff256a39c.png

    大数据的特点可归纳为“4V”。

    • 数据量(Volume), 海量性也许是与大数据最相关的特征。

    • 多样性(Variety),大数据既包括以事务为代表的传统结构化数据,还包括以网页为代表的半结构化数据和以视频、语音信息为代表的非结构化数据。

    • 数据价值(Value),大数据的体量巨大,但数据中的价值密度却很低。比如几个小时甚至几天的监控视频中,有价值的线索或许只有几秒钟。

    • 动态性(Velocity),大数据要求能够快速处理数据,时效性强,要进行实时或准实时的处理。

    5f2c127a2309c303575724511f50d965.png

    金融行业一直较为重视大数据技术的发展。相比常规商业分析手段,大数据可以使业务决策具有前瞻性, 让企业战略的制定过程更加理性化,实现生产资源优化分配,依据市场变化迅速调整业务策略,提高用户体验以及资金周转率,降低库存积压的风险,从而获取更高的价值和利润。

    5ea2fe9d9506a0e5cd74971cdf49e57c.png

    2. 大数据技术在金融行业中的典型应用

    大数据技术在金融行业中有着广泛的应用, 下面将介绍大数据技术在银行、证券、保险等金融细分领域中的应用。

    cc4adef849cc49f35e7558b12821417a.png

    2.1 银行大数据应用

    国内不少银行已经开始尝试通过大数据来驱动业务运营,如中信银行信用卡中心使用大数据技术实现了实时营销,光大银行建立了社交网络信息数据库,招商银行则利用大数据发展小微贷款。总的来看银行大数据应用可以分为四大方面:

    2.1.1 客户画像

    客户画像应用主要分为个人客户画像和企业客户画像。个人客户画像包括人口统计学特征、消费能力数据、兴趣数据、风险偏好等;企业客户画像包括企业的生产、流通、运营、财务、销售和客户数据、相关产业链上下游等数据。值得注意的是,银行拥有的客户信息并不全面,基于银行自身拥有的数据有时候难以得出理想的结果甚至可能得出错误的结论。比如,如果某位信用卡客户月均刷卡8次,平均每次刷卡金额800元,平均每年打4次客服电话,从未有过投诉,按照传统的数据分析,该客户是一位满意度较高流失风险较低的客户。但如果看到该客户的微博,得到的真实情况是:工资卡和信用卡不在同一家银行,还款不方便,好几次打客服电话没接通,客户多次在微博上抱怨,该客户流失风险较高。所以银行不仅仅要考虑银行自身业务所采集到的数据,更应考虑整合外部更多的数据,以扩展对客户的了解。包括:

    (1)客户在社交媒体上的行为数据(如光大银行建立了社交网络信息数据库)。通过打通银行内部数据和外部社会化的数据可以获得更为完整的客户拼图,从而进行更为精准的营销和管理;

    (2)客户在电商网站的交易数据,如建设银行则将自己的电子商务平台和信贷业务结合起来,阿里金融为阿里巴巴用户提供无抵押贷款,用户只需要凭借过去的信用即可;

    (3)企业客户的产业链上下游数据。如果银行掌握了企业所在的产业链上下游的数据,可以更好掌握企业的外部环境发展情况,从而可以预测企业未来的状况;

    (4)其他有利于扩展银行对客户兴趣爱好的数据,如网络广告界目前正在兴起的DMP数据平台的互联网用户行为数据。

    230a3cf6b6e885514c4321a6865b10fd.png

    2.1.2 精准营销

    在客户画像的基础上银行可以有效的开展精准营销,包括:

    (1)实时营销。实时营销是根据客户的实时状态来进行营销,比如客户当时的所在地、客户最近一次消费等信息来有针对地进行营销(某客户采用信用卡采购孕妇用品,可以通过建模推测怀孕的概率并推荐孕妇类喜欢的业务);或者将改变生活状态的事件(换工作、改变婚姻状况、置居等)视为营销机会;

    (2)交叉营销。即不同业务或产品的交叉推荐,如招商银行可以根据客户交易记录分析,有效地识别小微企业客户,然后用远程银行来实施交叉销售;

    (3)个性化推荐。银行可以根据客户的喜欢进行服务或者银行产品的个性化推荐,如根据客户的年龄、资产规模、理财偏好等,对客户群进行精准定位,分析出其潜在金融服务需求,进而有针对性的营销推广;

    (4)客户生命周期管理。客户生命周期管理包括新客户获取、客户防流失和客户赢回等。如招商银行通过构建客户流失预警模型,对流失率等级前20%的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了15个和7个百分点。

    2.1.3 风险管理与风险控制

    在风险管理和控制方面包括中小企业贷款风险评估和欺诈交易识别等手段

    (1)中小企业贷款风险评估。银行可通过企业的产、流通、销售、财务等相关信息结合大数据挖掘方法进行贷款风险分析,量化企业的信用额度,更有效的开展中小企业贷款。

    (2)实时欺诈交易识别和反洗钱分析。银行可以利用持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生行为模式(如转账)等,结合智能规则引擎(如从一个不经常出现的国家为一个特有用户转账或从一个不熟悉的位置进行在线交易)进行实时的交易反欺诈分析。如IBM金融犯罪管理解决方案帮助银行利用大数据有效地预防与管理金融犯罪,摩根大通银行则利用大数据技术追踪盗取客户账号或侵入自动柜员机(ATM)系统的罪犯。

    23c5ec9ddc117bc8506bc8759b0e6595.png

    2.1.4 运营优化

    (1)市场和渠道分析优化。通过大数据,银行可以监控不同市场推广渠道尤其是网络渠道推广的质量,从而进行合作渠道的调整和优化。同时,也可以分析哪些渠道更适合推广哪类银行产品或者服务,从而进行渠道推广策略的优化。

    (2)产品和服务优化:银行可以将客户行为转化为信息流,并从中分析客户的个性特征和风险偏好,更深层次地理解客户的习惯,智能化分析和预测客户需求,从而进行产品创新和服务优化。如兴业银行目前对大数据进行初步分析,通过对还款数据挖掘比较区分优质客户,根据客户还款数额的差别,提供差异化的金融产品和服务方式。

    (3)舆情分析:银行可以通过爬虫技术,抓取社区、论坛和微博上关于银行以及银行产品和服务的相关信息,并通过自然语言处理技术进行正负面判断,尤其是及时掌握银行以及银行产品和服务的负面信息,及时发现和处理问题;对于正面信息,可以加以总结并继续强化。同时,银行也可以抓取同行业的银行正负面信息,及时了解同行做的好的方面,以作为自身业务优化的借鉴。

    2.2 保险行业大数据应用

    过去,由于保险行业的代理人的特点,所以在传统的个人代理渠道,代理人的素质及人际关系网是业务开拓的最为关键因素,而大数据在在新客户开发和维系中的作用就没那么突出。但随着互联网、移动互联网以及大数据的发展,网络营销、移动营销和个性化的电话销售的作用将会日趋显现,越来越多的保险公司注意到大数据在保险行业中的作用。总的来说,保险行业的大数据应用可以分为三大方面:客户细分及精细化营销、欺诈行为分析和精细化运营。

    2.2.1 客户细分和精细化营销

    (1)客户细分和差异化服务。风险偏好是确定保险需求的关键。风险喜好者、风险中立者和风险厌恶者对于保险需求有不同的态度。一般来讲,风险厌恶者有更大的保险需求。在客户细分的时候,除了风险偏好数据外,要结合客户职业、爱好、习惯、家庭结构、消费方式偏好数据,利用机器学习算法来对客户进行分类,并针对分类后的客户提供不同的产品和服务策略。

    (2)潜在客户挖掘及流失用户预测。保险公司可通过大数据整合客户线上和线下的相关行为,通过数据挖掘手段对潜在客户进行分类,细化销售重点。通过大数据进行挖掘,综合考虑客户的信息、险种信息、既往出险情况、销售人员信息等,筛选出影响客户退保或续期的关键因素,并通过这些因素和建立的模型,对客户的退保概率或续期概率进行估计,找出高风险流失客户,及时预警,制定挽留策略,提高保单续保率。

    (3)客户关联销售。保险公司可以关联规则找出最佳险种销售组合、利用时序规则找出顾客生命周期中购买保险的时间顺序,从而把握保户提高保额的时机、建立既有保户再销售清单与规则,从而促进保单的销售。除了这些做法以外,借助大数据,保险业可以直接锁定客户需求。以淘宝运费退货险为例。据统计,淘宝用户运费险索赔率在50%以上,该产品对保险公司带来的利润只有5%左右,但是有很多保险公司都有意愿去提供这种保险。因为客户购买运费险后保险公司就可以获得该客户的个人基本信息,包括手机号和银行账户信息等,并能够了解该客户购买的产品信息,从而实现精准推送。假设该客户购买并退货的是婴儿奶粉,我们就可以估计该客户家里有小孩,可以向其推荐关于儿童疾病险、教育险等利润率更高的产品。

    (4)客户精准营销。在网络营销领域,保险公司可以通过收集互联网用户的各类数据,如地域分布等属性数据,搜索关键词等即时数据,购物行为、浏览行为等行为数据,以及兴趣爱好、人脉关系等社交数据,可以在广告推送中实现地域定向、需求定向、偏好定向、关系定向等定向方式,实现精准营销。

    8b477e1f9234ae3cd49f19af521a2076.png

    2.2.2 欺诈行为分析

    基于企业内外部交易和历史数据,实时或准实时预测和分析欺诈等非法行为,包括医疗保险欺诈与滥用分析以及车险欺诈分析等。

    (1)医疗保险欺诈与滥用分析。医疗保险欺诈与滥用通常可分为两种,一是非法骗取保险金,即保险欺诈;另一类则是在保额限度内重复就医、浮报理赔金额等,即医疗保险滥用。保险公司能够利用过去数据,寻找影响保险欺诈最为显著的因素及这些因素的取值区间,建立预测模型,并通过自动化计分功能,快速将理赔案件依照滥用欺诈可能性进行分类处理。

    (2)车险欺诈分析。保险公司够利用过去的欺诈事件建立预测模型,将理赔申请分级处理,可以很大程度上解决车险欺诈问题,包括车险理赔申请欺诈侦测、业务员及修车厂勾结欺诈侦测等。

    2.2.3 精细化运营

    (1)产品优化,保单个性化。过去在没有精细化的数据分析和挖掘的情况下,保险公司把很多人都放在同一风险水平之上,客户的保单并没有完全解决客户的各种风险问题。但是,保险公司可以通过自有数据以及客户在社交网络的数据,解决现有的风险控制问题,为客户制定个性化的保单,获得更准确以及更高利润率的保单模型,给每一位顾客提供个性化的解决方案。

    (2)运营分析。基于企业内外部运营、管理和交互数据分析,借助大数据台,全方位统计和预测企业经营和管理绩效。基于保险保单和客户交互数据进行建模,借助大数据平台快速分析和预测再次发生或者新的市场风险、操作风险等。

    (3)代理人(保险销售人员)甄选。根据代理人员(保险销售人员)业绩数据、性别、年龄、入司前工作年限、其它保险公司经验和代理人人员思维性向测试等,找出销售业绩相对最好的销售人员的特征,优选高潜力销售人员。

    2.3 证券行业大数据应用

    大数据时代,大多数券商们已意识到大数据的重要性,券商对于大数据的研究与应用正在处于起步阶段,相对于银行和保险业,证券行业的大数据应用起步相对较晚。目前国内外证券行业的大数据应用大致有以下几个方向:

    2.3.1 股价预测

    2011年5月英国对冲基金Derwent Capital Markets建立了规模为4000 万美金的对冲基金,该基金是首家基于社交网络的对冲基金,该基金通过分析Twitter 的数据内容来感知市场情绪,从而指导进行投资。利用 Twitter 的对冲基金 Derwent Capital Markets 在首月的交易中确实盈利了,其以1.85%的收益率,让平均数只有0.76%的其他对冲基金相形见绌。

    麻省理工学院的学者,根据情绪词将twitter内容标定为正面或负面情绪。结果发现,无论是如“希望”的正面情绪,或是“害怕”、“担心”的负面情绪,其占总twitter内容数的比例,都预示着道琼斯指数、标准普尔500指数、纳斯达克指数的下跌;美国佩斯大学的一位博士则采用了另外一种思路,他追踪了星巴克、可口可乐和耐克三家公司在社交媒体上的受欢迎程度,同时比较它们的股价。他们发现,Facebook上的粉丝数、Twitter 上的听众数和 Youtude 上的观看人数都和股价密切相关。另外,品牌的受欢迎程度,还能预测股价在10天、30天之后的上涨情况。但是,Twitter 情绪指标,仍然不可能预测出会冲击金融市场的突发事件。例如,在2008年10月13号,美国联邦储备委员会突然启动一项银行纾困计划,令道琼斯指数反弹,而3天前的Twitter相关情绪指数毫无征兆。而且,研究者自己也意识到,Twitter 用户与股市投资者并不完全重合,这样的样本代表性有待商榷,但仍无法阻止投资者对于新兴的社交网络倾注更多的热情。

    2.3.2 客户关系管理

    (1)客户细分。通过分析客户的账户状态(类型、生命周期、投资时间)、账户价值(资产峰值、资产均值、交易量、佣金贡献和成本等)、交易习惯(周转率、市场关注度、仓位、平均持股市值、平均持股时间、单笔交易均值和日均成交量等)、投资偏好(偏好品种、下单渠道和是否申购)以及投资收益(本期相对和绝对收益、今年相对和绝对收益和投资能力等),来进行客户聚类和细分,从而发现客户交易模式类型,找出最有价值和盈利潜力的客户群, 以及他们最需要的服务, 更好地配置资源和政策, 改进服务,抓住最有价值的客户。

    (2)流失客户预测。券商可根据客户历史交易行为和流失情况来建模从而预测客户流失的概率。如2012年海通证券自主开发的“给予数据挖掘算法的证券客户行为特征分析技术”主要应用在客户深度画像以及基于画像的用户流失概率预测。通过对海通100多万样本客户、半年交易记录的海量信息分析,建立了客户分类、客户偏好、客户流失概率的模型。该项技术最大初衷是希望通过客户行为的量化分析,来测算客户将来可能流失的概率。

    cee308612ac7ab74023dfafbf8b27b35.png

    2.3.3 智能投资顾问

    智能投资顾问业务提供线上投资顾问服务,其基于客户的风险偏好、交易行为等个性化数据,依靠大数据量化模型,为客户提供低门槛、低费率的个性化财富管理方案。

    2.3.4 投资景气指数

    2012年,国泰君安推出了“个人投资者投资景气指数”(简称3I指数),通过一个独特的视角传递个人投资者对市场的预期、当期的风险偏好等信息。国泰君安研究所对海量个人投资者样本进行持续性跟踪监测,对账本投资收益率、持仓率、资金流动情况等一系列指标进行统计、加权汇总后得到的综合性投资景气指数。

    3I指数通过对海量个人投资者真实投资交易信息的深入挖掘分析,了解交易个人投资者交易行为的变化、投资信心的状态与发展趋势、对市场的预期以及当前的风险偏好等信息。在样本选择上,选择资金100万元以下、投资年限5年以上的中小投资者,样本规模高达10万,覆盖全国不同地区,所以,这个指数较为有代表性。在参数方面,主要根据中小投资者持仓率的高低、是否追加资金、是否盈利这几个指标,来看投资者对市场是乐观还是悲观。“3I指数”每月发布一次,以100为中间值,100—120属于正常区间,120以上表示趋热,100以下则是趋冷。从实验数据看,从2007年至今,“3I指数”的涨跌波动与上证指数走势拟合度相当高。

    3. 金融大数据应用面临的挑战及对策

    大数据技术为金融行业带来了裂变式的创新活力,其应用潜力有目共睹,但在数据应用管理、业务场景融合、标准统一、顶层设计等方面存在的瓶颈也有待突破。

    • 数据资产管理水平仍待提高。主要体现在数据质量不高、获取方式单一、数据系统分散等方面。

    • 应用技术和业务探索仍需突破。主要体现在金融机构原有的数据系统架构相对复杂,涉及的系统平台和供应商较多,实现大数据应用的技术改造难度很大。同时,金融行业的大数据分析应用模型仍处于起步阶段,成熟案例和解决方案仍相对较少,需要投入大量的时间和成本进行调研和试错。系统误判率相对较高。

    • 行业标准和安全规范仍待完善。金融大数据缺乏统一的存储管理标准和互通共享平台,对个人隐私的保护上还未形成可信的安全机制。

    • 顶层设计和扶持政策还需强化。体现在金融机构间的数据壁垒较为明显,各自为战问题突出,缺乏有效的整合协同。同时,行业应用缺乏整体性规划,分散、临时、应激等特点突出,信息价值开发仍有较大潜力。

    总的来看,大数据在金融行业的应用起步比互联网行业稍晚,其应用深度和广度还有很大的扩展空间。金融行业的大数据应用依然有很多的问题需要克服,同时需要国家出台促进金融大数据发展的产业规划和扶持政策,也需要行业分阶段推动金融数据开放、共享和统一平台建设,强化行业标准和安全规范。

    长按二维码关注公众号

    f84638dcb2e7f7adbf5d99582edfcf2d.png

    展开全文
    weixin_38754337 2021-10-28 01:18:53
  • weixin_35179252 2021-01-12 05:05:49
  • weixin_39537298 2020-12-20 19:50:51
  • sensorsdata 2021-03-24 00:20:39
  • qq_40207692 2021-01-13 14:30:55
  • weixin_42508242 2021-12-09 12:09:16
  • yuyuyuyo 2021-07-28 15:18:55
  • weixin_48493350 2021-05-29 00:47:29
  • fuli911 2021-03-12 10:37:46
  • lmq1157072988 2020-12-31 10:55:52
  • m0_52703463 2021-07-30 10:51:36
  • weixin_45585364 2020-12-28 17:06:00
  • jaminwm 2021-08-13 14:47:26
  • lqyanna 2021-03-22 11:02:08
  • qq_40207692 2021-01-13 15:13:55
  • m0_53544880 2020-12-22 19:28:42
  • qq_37696899 2021-11-09 17:09:48
  • moxibingdao 2021-07-19 00:37:02
  • sensorsdata 2021-03-17 00:22:54
  • MyySophia 2021-08-04 22:07:45
  • w397090770 2021-04-14 00:28:44
  • Sky_QiaoBa_Sum 2021-01-10 00:11:51
  • m0_52703463 2021-06-17 10:34:59
  • xianyu120 2021-07-07 16:17:37
  • weixin_42345036 2020-12-29 00:01:49
  • Anita_zhang 2021-02-05 10:00:19

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 29,355
精华内容 11,742
关键字:

教育行业大数据应用