精华内容
下载资源
问答
  • 工业大数据平台需求分析

    千次阅读 2019-01-11 11:35:30
    工业大数据平台需求分析 按照标准化的思路建设大数据平台,实现政务数据、企业数据及其他数据的安全接入、存储、共享、分析、应用和管理的目标,以支撑整个创新创业生态、大数据产业链的健康发展。工业大数据平台...

    按照标准化的思路建设大数据平台,实现政务数据、企业数据及其他数据的安全接入、存储、共享、分析、应用和管理的目标,以支撑整个创新创业生态、大数据产业链的健康发展。工业大数据平台主要由企业服务平台(1)运行监测平台(2)智能分析平台(3) 3大系统组成。

    企业服务平台

    企业服务平台主要针对企业用户;包含信息服务双签服务项目服务

    1.1信息服务

    企业的信息服务包括企业自画像及政策信息。
    企业画像信息来源通过企业自身上传和大数据平台获取,包含信用、人社、财政等信息。
    政策信息包括政府各部室发布的各项政策或企业扶持文件。

    1.2双签服务

    一个是为企业所用的工单系统,企业发起诉求->双签部门接收后分发相应部门->部门处理后回复->工单完结确认 ,工单进度采用邮件/短信提醒。
    一个是对双签部门的设置,可自行定期为企业和部门进行绑定。

    1.3项目服务

    对以往纸制项目申报流程的电子化

    运行监测平台

    2.1核心指标

    规上工业企业数量
    规上工业增长速度
    技改投资
    工业利润增速
    企业亏损面

    2.2生产要素

    工业用电量
    工业用气量
    工业人才数
    工业企业贷款余额
    工业切换专项资金

    2.3重点产业分析

    2.4重点区域分析

    智能分析平台

    3.1数据挖掘

    将多个数据源(企业上传,平台获取)通过ETL进行数据整合,关联。透过事件的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系,用此来洞察数据趋势。

    3.2智能钻取

    当我们想从规上工业增长速度排名报表中,找出排名首位的明细数据,以此分析其位列首位的原因。

    这个时候,在网格BI报表分析工具中,只需两次双击便可直接调取明细

    3.3大数据可视化

    可以优美地将大数据中的繁杂简化成既美观又富有意义的可视化图形/表格。同时支持大屏,PC,手机三端显示。

    展开全文
  • 大数据与快速数据分析对高性能分析的需求 智能家居的设备的产生必然使下一代家居服务概念化,社交网站和知识社区的日益普及,科学实验和技术计算的激增,高度可编程以及软件定义IT基础设施(服务器、存储装置、网络...

    大数据与快速数据分析对高性能分析的需求

    智能家居的设备的产生必然使下一代家居服务概念化,社交网站和知识社区的日益普及,科学实验和技术计算的激增,高度可编程以及软件定义IT基础设施(服务器、存储装置、网络解决方案的涌现等都极大促进了可用数据的指数级增长)。

    大数据分析范型

    大数据分析的成熟度、稳定性、战略符合程度需要进行彻底调查,从而才能够在开始阶段就完全确定和清晰表达各种可见和隐藏的风险(可行性、财务影响、技术成熟和稳定程度、资源可用性)。实时分析是当前热门的需求,很多人努力实现这一关键需求。

    描述大数据

    随着产品供应商、服务组织、独立软件供应商、系统集成商、创新者和研究机构之间更深入的协作,这种范型正在逐步的确认。创建、持续并维持简化技术、平台和基础设施、集成流程、最佳实践、设计模式、关键指标,目的是使得这一新的学科更具有渗透力和说服力。大数据的含义是广泛的,主要的活动是对大数据进行基于工具和数学的分析,从而获得更大的洞见。分析学是IT中的独立学科,研究数据收集、过滤、清理、转换、存储、表示、处理、挖掘和分析的方法,目的是提取可用的情报。。

    大数据特性

    大数据的一般特性

    • 数据存储的容量定义为PB级、EB级等。超过当前存储限制(GB、TB)
    • 大数据可以有多种结构(结构化、非结构化、半结构化)
    • 大数据有多种类型的数据来源(传感器、计算机、移动电话、社交网络)和资源
    • 数据收集、获取、处理、挖掘的速度跨越两个极端,即在实时到面向批处理的变化

    高性能分析

    有多种的分布式处理机制

    • in-memory分析将分析过程划分为易于管理的片段,将计算并行分布到一组专用的机器中。
    • in-database处理是用大规模并行处理(MPP)数据库结构来更快执行关键数据管理分析开发及部署任务。相关任务被移动到更接近数据集的位置,而且计算会运行在数据库中,从而避免耗时的数据移动和转移。
    • 网格计算:创建一个受控的,共享的来使用动态的、基于资源的负载均衡快速处理大量数据和分析程序。可以将任务进行分割,然后将分割后的任务运行在使用共享物理存储的多个对称多处理(SMP)机上。集中管理使得你可以在执行的一组约束下监视和管理多个用户及应用程序。

    大数据和快速数据的含义

    大数据的主要影响包括:

    • 数据管理(端到端的数据生命周期)基础设施
    • 数据分析平台
    • 构建下一代洞见驱动的应用程序。

    大数据基础设施

    从数据获取到清理数据从而快速容易地提取可用洞见,要求大量的统一的IT基础设施和无缝同步的平台。最近出现了存储设备、网络连接方案、裸机服务器、虚拟机(VM)、Docker容器等用于受Hadoop启发的大数据分析。

    大数据平台

    在平台方面,最合理的场景是采取集成的平台进行数据采集、分析、知识发现和可视化。可以使用连接器、驱动器、适配器来从不同的数据来源获得数据,例如文件、数据库、设备、传感器、操作系统、社交网站等。Hadoop平台主要支持粗粒度数据查询和检索。Hadoop将多结构数据转化为结构化数据,从而使得商业智能(BI)平台能够有效地处理格式化和规范化后的数据。Hadoop用来删除各种类型冗余和重复数据,这样总数据规模就会急剧下降。MapReduce是主要的数据处理框架。任意编程语言和脚本语言都可用于编写MapReduce应用程序。Hadoop分布式文件系统(HDFS)是朱啊哟数据存储框架。即便是传统的数据库管理系统也正在相应的更新,目的是高效的应对数据分析带来的挑战。产生了并行、分析、集群、分布式数据库管理系统来迎合(BDA)。还出现了中间件解决方案,形式包括数据hub、消息总线和网络架构、代理等。目的是将粗糙的边界抚平。

    还有集成的解决方案,Datameer(http://www.datameer.com/)就是这样的平台,被用来简化大数据平台分析任务。

    大数据应用程序

    BDA正在快速成为学术机构和IT组织的研究实验室的等学习和研究的一个重要学习。随着软件定义的基础设施(SDI)和基于云的平台稳定分析即服务(Analytics as a Service,AaaS)。

    用于精确、预测性、规范性洞见的新兴数据源

    数据爆炸的关键驱动是因为采用了下面列出的技术

    • 由于通过先进技术实现数字化,感知和智能物体的数量多达数以万计。
    • 由于IT消费化,智能手机和可穿戴设备多达数十亿。
    • 设备和服务生态系统的空前增长。
    • 运营系统、事务系统、实时系统、交互系统的指数级增长。
    • 通过更加深入、极致网络和通信互连的设备和系统多达数十亿。
    • 大规模技术计算和科学实验
    • 社交网络(web2.0)和知识社区的繁荣。
    • IT集中化、商业化、产业化(云计算)
    • 物联网(loT)、空间物理系统(CPS)、环境智能(AmI)等技术的采纳

    计算变得分布而管理变得集中,通信变为自治的,统一的,感知变得无处不在。具有感知能力的物体遍布各处。视觉、感知、决策支持、驱动是普适的。知识捕捉和利用强制在系统和服务中实现等。用于设备、应用继承的标准兼容服务支持和用于远程发现、访问、诊断、可修复性、可管理性、可维持性的编程基础设施。
    在这里插入图片描述

    各种各样的通用或专用的网络(BCN、CAN、LAN、PAN等)将会产生大量的有用信息。
    在这里插入图片描述

    此外、各种电子交易和交互都会产生大量的数据。
    在这里插入图片描述

    其他导致大数据的主要进程如下

    • 设备到设备(D2D)集成
    • 设备到企业(D2E)集成
    • 设备到云(D2C)集成:随着多数企业系统移动到云,设备到云(D2C):随着多数企业系统移动到云,设备到云(D2C)互联网变得更加重要
    • 云到云(C2C)集成:不同的、分布式的、去中心的云逐渐连接起来,以便提供更好的服务。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qsWkCPec-1570284078666)(assets/1570192439718.png)]

    新兴的物联网的参考架构
    在这里插入图片描述

    大数据分析

    特定的及通用的分析学科

    类型类型
    实时分析社交媒体分析
    预测性分析运营分析
    规范性分析机器分析
    高性能分析零售与安全分析
    诊断分析情感分析
    流分析环境感知分析

    大数据分析的主要应用领域

    在这里插入图片描述

    处理运转中、使用中和持久的数据

    受分析影响的主要领域
    在这里插入图片描述

    新一代的数据分析

    大数据分析技术架构

    在这里插入图片描述

    大数据分析的宏观架构

    与平台相关的高度优化的基础设施是从大数据领域中不断获得预期成功的主要支柱。除了数据虚拟化、提取、预处理和分析平台外,还有中间件、代理器、连接器、驱动器、适配器解决方案以及不同的数据管理平台集合。可视化工具对于及时向正确的用户和系统传递消息是非常必要的。还有消息队列和代理用来接收数据和文档消息。

    混合架构

    随着新类型的数据以及来源不断的涌现,大数据仍然在不断的增长。混合架构代表了两种不同架构模式和谐共存,对于数据采集、有标准的的以及具体的、第三方的、专门的连接器。

    机器数据分析

    在一些数据中心中,大量企业级运营和分析系统,数据管理系统,成套的、自产的总控系统,以及集成引擎。在云技术的采用,这些传统的数据中心正在逐渐成为强大的私有云环境。
    在这里插入图片描述

    基于云的大数据分析

    用于大数据集分析的公有云

    云计算的最大潜力是对已经存在于云中心的数据的可负担的,熟练的处理。云作为IT的基础设施(服务器、存储、网络)、商业基础设施、管理软件解决方案和应用的融合高度优化且自动、专用和共享、虚拟化、软件定义的环境,其地位正在快速巩固。跨国组织的数量正在稳步的增长,对于IT的直接影响就是多样性,分布式的应用程序和数据源位于多个环境中,包括私有云、公有云、混合云。考虑到安全性需要,客户、机密、公司信息主要保存在私有云中,为了满足需求,所有企业级业务应用(ERP、SCM、CRM、KM、CM等)放置在私有云中。

    WAN优化技术正在快速成熟,目的在地理分布的云的系统之间传递大量数据时大幅减少网络的延迟。联合、开放、互联、互操作的云模式正在快速的关注。

    混合云

    各种软件系统正在逐步现代化,并被移动到云环境中,尤其是公有云,这样就能够作为公网上的服务来进行订阅和使用。

    企业分析

    多数企业已经在大量企业级存储中积累了很多的数据,企业需要从数据中创建智能并收集大的洞见和价值,从而指定策略和有价值的技术。

    通常企业分析部分的需求包括:

    • 工作负载管理和优先级管理
    • 管理整个IT环境
    • 对所有业务处理进行性能优化。

    社交媒体分析SMA

    社交数据的规模正在快速增长,如果能够适当进行各种特定探测,不断增加的社交数据能够产生多种价值增值。加速决策的过程。

    大数据分析的主要步骤

    有一些新兴的数据源坚持要求自动数据采集、清理、修正、格式化、过滤等。预处理动作需要同步执行,而且随着数据复杂性的增加。需要具备高度胜任的平台和工具集,再加上适配器、连接器、驱动器、才能够加速预处理功能。Hadoop平台被视为最有前途的平台。

    数据采集

    数据被采集并上传到基于云的数据服务中。例如Datameer这个端到端的大数据平台,它忽略了ETL和静态模式的限制,使得业务用户能够用于所有常见的结构和非结构化的数据源。Datameer将所有的数据以原始格式直接加载到Hadoop中,通过健壮的采样、解析、调度和数据保持工具,处理过程得到了优化和支持,使得任何用户能够快速、高效地获得他们需要的数据。

    Treasure Data Serive(另一个大数据平台服务供应商)使用并行批量数据导入工具或运行在客户本地系统中的实时数据收集代理。批量数据导入工具通常用于从关系型数据库、平面文件(Excel、逗号分隔文件)、应用系统(ERP、CRM等)导入数据。数据的收集代理被设计为实时从web和应用程序日志、传感器、移动系统等捕获数据。数据收集代理在数据转送到云服务之前进行过滤、转换、聚集。所有的数据会被转换为MessagePack的二进制格式。代理技术被设为轻量级、可扩展、可靠的。还有使用并行化、缓冲、压缩机制来使用性能达到最高、减少网络流量,确保在数据传输中不重不漏。

    数据存储

    大数据存储可以使用SQL、NoSQL和NewSQL数据库。架构师需要选择适当的数据库管理系统。Treasure Data service在Plazma中保存数据。它是可扩展、安全、基于云的、列式数据库。Plazma为时序数据进行了优化。

    实时分析

    通常大量结构化和半结构化数据保存在Hadoop中(数量+多样性)。另一方面,流数据用于快速数据需求(速度+多样性)。两者相辅相成。
    在这里插入图片描述

    Hadoop是大数据时代的典型的批处理解决方案,数据被收集和保存到商用服务器和磁盘中,进而采用许多不同的处理技术在预定的时间内获得洞见。

    实时数据或快速数据、事件数据、连续数据、流数据要求实时分析能力,运营数据是一种实时数据,用于产生运营智能。不仅IT基础设施平台、定制的、自产的、成套的业务应用程序也能产生大量的运行数据,包括日志文件、配置文件、策略文件等。

    实时分析的主要用例:

    • 入侵、监视、欺诈检测
    • 实时安全性和监视
    • 算法交易
    • 医疗、运动分析等
    • 对生产、运营、交易系统的监视、度量和管理
    • 供应链优化与智能电网
    • 智能环境:智能汽车、智能家居、智能医院、智能旅馆等。
    • 车辆和野生动物的追踪。
    • 环境、状况感知。

    实时分析平台

    在这里插入图片描述
    Apache Drill 是用于Hadoop和NoSQL的开源、低延迟SQL查询引擎。Apache Drill 的目的是自底向上地在规模快速增加的多结构化数据集上提供低延迟查询。

    VoltBD和MemSQL是市场上获得足够关注的两种著名的in-memory数据库。
    在这里插入图片描述

    MemSQL DB的参考架构

    主要的区别就是

    • 加速应用程序并增加实时运营分析
    • 基于商用硬件灵活扩展、最大化性能及ROI
    • 同时分析实时和历史数据
    • 将关系型数据和JSON数据合并。

    流分析

    Storm和Spark用于加速流分析的处理。

    主要的应用:

    • 业务流程管理与自动化(过程监视,BAM、异常报告、商业智能)
    • 金融(算法交易、欺诈检测、风险管理)
    • 网络与应用监视(入侵检测、SLA监视)
    • 传感器网路应用(RFID读取、生产线调度与控制、空中交通)

    结论

    在这里插入图片描述

    展开全文
  • 基于大数据的推荐系统通过分析用户的历史记录了解用户的喜好,从而主动为用户推荐其感兴趣的信息,满足用户的个性化推荐需求。 推荐系统概述 推荐系统是自动联系用户和物品的一种工具,它通过研究用户的兴趣爱好,...
  • 食品安全大数据可视化关联分析

    千次阅读 2021-04-08 00:27:35
    点击上方蓝字关注我们食品安全大数据可视化关联分析陈谊,孙梦,武彩霞,孙小然北京工商大学计算机学院食品安全大数据技术北京市重点实验室,北京 100048摘要:随着检测技术的提高和互联...

    点击上方蓝字关注我们

    食品安全大数据可视化关联分析

    陈谊, 孙梦, 武彩霞, 孙小然

    北京工商大学计算机学院食品安全大数据技术北京市重点实验室,北京 100048

     

    摘要随着检测技术的提高和互联网技术的广泛应用,食品安全数据的规模不断增大、类型不断增多,对数据分析技术提出了极大挑战。近年来出现的可视分析技术,通过提供图形交互界面,帮助领域人员深入理解数据并洞悉数据中的隐含规律,提高对食品安全风险的分析、发现、预警和溯源能力,为食品安全监测和管控提供了新手段。首先分析了食品安全数据的主要来源、特征和分析任务;然后提出了一种关联可视分析技术分类方法,从属性关联、实体关联、对比分析和时空分析4个方面阐述了近10年来的食品安全大数据可视化关联分析方法;最后提出了该领域存在的问题和挑战。

    关键词可视分析 ; 大数据 ; 食品安全 ; 关联关系

    论文引用格式:

    陈谊, 孙梦, 武彩霞,  等. 食品安全大数据可视化关联分析[J]. 大数据, 2021, 7(2): 61-77.

    CHEN Y, SUN M, WU C X, et al. Visual associations analysis of big data in food safety[J]. Big Data Research, 2021, 7(2): 61-77.


    1 引言

    食品安全关系到人们的身体健康和生命安全,受到世界各国的广泛关注。食品安全问题主要包括病原微生物污染、农药兽药残留、重金属和真菌毒素污染、食品添加剂的非法和掺杂使用,是一个非常复杂的问题,涉及从种植养殖、生产加工、运输贮藏到餐桌消费的全过程,为此各国政府部门均加强了对从农田到餐桌全链条的食品安全监测和管控,进而产生了大量的食品安全数据。这些数据涉及食品的种类、营养、污染物、时间、地域等多维度信息,具有多维、时空、层次、关联等特征,对这些数据的关联分析是食品安全领域的重要分析任务,包括属性关联、实体关联、对比分析和时空分析。随着检测技术的进步和物联网技术的应用 ,食品安全数据的数量、类型不断增多,产生的速度不断加快,开始呈现出大数据的特征。这一方面为基于数据驱动的食品安全风险分析提供了丰富的数据资源,另一方面也对数据分析技术提出了极大的挑战。

    2 食品安全数据的来源、特征与关联分析任务

    2.1 数据来源

    食品安全数据来源广泛,主要包括如下几个方面。

    ● 各类食品安全检测仪器的检测结果。这些检测仪器可以是:用于检测农药残留的色谱-质谱仪、用于监测食品质量的射频识别(radio frequency identification,RFID)传感器和视频设备、用于快速检测食品安全的移动设备(如手机)等。

    ● 与食品安全相关的标准文件。如食品中各种危害物(农药残留、重金属、致病菌等)的限量标准、检测方法标准、食品中营养成分的限量标准等。

    ● 互联网数据。如新闻、微博、Twitter等社交媒体上的相关评论等。

    ● 在线数据库。各国食品安全管理部门或组织都会在线发布数据,这些数据包含与食品安全相关的信息,如各国的相关标准、食品中污染物的抽检结果和分析报告、出入境检验检疫不合格食品信息、食品消费数据、风险预警信息等。

    表1给出了几个国内外典型的食品安全在线数据库。GEMS/Food(global environment monitoring systemfood contamination monitoring and assessment programme)是全球环境监测/食品污染监测和评估系统,它由世界卫生组织(World Health Organization, WHO)发布,包含世界多个区域的食品污染物监测数据;RASFF(rapid alert system for food and feed)是欧盟食品和饲料类快速预警系统,是现在由欧洲联盟委员会(European Commission, EC)公开的经常使用的食品安全在线数据库,该系统可以按照通知、通知类别、危害物、日期、产品、关键字等进行数据筛选。EFSA-Data是由欧洲食品安全局(European Food Safety Authority, EFSA)发布的欧盟地区食品安全数据收集和分析结果,其中包含食品消费、食品成分、生物危害、化学危害、化学污染物、化学残留物、植物学纲要和标准化数据等相关数据,风险评估者可使用该数据集计算出消费者对某种危害的暴露程度,监控食品安全计划的有效性。美国食品药品监督管理局(Food and Drug Administration,FDA)发布了一些数据库,如农药残留监测计划报告和数据、F DA监管产品召回的信息等。中国食品安全国家标准和食品安全抽检结果由国家市场监督管理总局(State Administration for Market Regulation,SAMR )发布,包含我国各污染物的限量标准、抽检结果全部合格和不合格产品信息的食品名称和抽检次数等。对于进出口食品安全数据,如各国有关标准和未准入境食品信息由中国海关总署(General Administration of Customs of the People’s Republic of China,GACC)发布。此外,中国还有一些食品安全数据集是由商业组织提供的,例如食品伙伴网的专业食品安全数据库,包含安全性指标、食品抽检信息、化学污染、微生物、进出口信息、认证信息、营养数据等。上述数据库大多为用户提供了根据地区、食品分类、危害物、时间等关键字段进行查询的功能。

    2.2 数据特征

    从数据来源可以看出,食品安全数据开始呈现规模巨大(volume)、类型多样(variety)、产生速度快(velocity)、价值密度低(value)、不确定性(veracity)和动态可变性(variability)的大数据6V特征。从数据分析的角度来看,它还具有多源、多维、层次、时空和动态可变等特征。多源是指食品安全数据来源广泛,如前文所述,其可以是检测结果、监测数据、标准文件、监管数据、互联网数据、在线数据库等;多维是指食品安全数据具有多维属性,例如,食品中含有多种营养成分,包含蛋白质、维生素、糖、脂肪等1 500多种;层次是指数据具有树形的层次结构,例如,农产品分类、农药分类、地域的行政区划等都具有层次特征;时空是指食品安全数据有一定的时间属性和空间属性,通常人们需要统计食品安全数据按空间分布和时间分布的态势;动态可变性是指食品安全数据是动态变化的,如监测数据、视频数据、社交媒体数据等。

    2.3 关联分析任务

    食品安全监管的目的是通过相关技术手段进行风险识别、风险分析和风险评估,进而实现风险预警和追根溯源,以最大限度地预防、减轻和消除食品安全的危害和风险,确保人民群众的食品安全。随着食品安全大数据的出现,数据驱动的风险分析已成为食品安全决策和监管的重要手段之一。通过对食品安全数据的关联分析,领域人员可以掌握数据的分布特征、发现异常、探索数据间的隐含关联,以支持食品安全风险识别、风险评估、风险预警和追根溯源。

    根据食品安全监管的需求和数据的特征,笔者将食品安全数据的关联分析分为以下4类:属性关联、实体关联、对比分析和时空分析。

    ● 属性关联是指属性间的相关性分析。食品安全数据通常是多维或高维数据,涉及食品的各种属性(名称、分类、营养成分等)、危害物的各种属性(名称、类别、毒性、成分等)、多国限量标准等,通过属性间的相关性分析,可以进行营养食品推荐或食品安全风险预测。

    ● 实体关联是指实体间的关联分析。食品安全数据集中通常含有多个食品或危害物等实体,这些实体间的关联可以是树状的层次关系,也可以是网状的关联关系,通过对这些关联关系的探索,可以帮助发现异常实体,如高风险的食品或危害物。

    ● 对比分析。作为关联分析的一种特殊形式,对比分析在食品安全领域中普遍存在,如检测结果与限量标准的对比和食品污染程度的排名可以帮助发现不合格食品和高风险食品;多国限量标准的对比可以帮助监管部门发现两个国家同类标准的差异,如农药残留最大限量标准,进而改进和完善我国现有标准。

    ● 时空分析。食品安全数据的许多属性与时间或空间关联,这类关联分析可以使用户了解数据的空间分布和时变特征,从而对食品安全事件进行预测和溯源。

    针对上述关联分析需求,当前基于统计学和数据挖掘的方法在一定程度上有效地解决了食品安全数据的关联分析问题,然而这些方法大多是全自动的过程,没有考虑人的经验和知识。随着食品安全大数据时代的到来,食品安全监测预警工作的思维方式和工作范式将发生根本性的变化,食品安全数据监测预警的分析对象和研究内容更加细化,数据获取技术更加便捷,这就要求信息处理技术更加智能,信息表达和服务技术更加精准。

    3 食品安全数据的关联可视分析方法

    近年来出现的可视分析技术将人的经验智慧与机器的运算能力紧密地结合在一起,通过提供有效的交互可视界面,帮助人们快速准确地观察、过滤、探索、理解和分析大规模数据,从而有效地发现隐藏在数据内部的特征和规律。数据可视分析流程如下:首先对原始数据进行收集和处理,并将其存储到数据文件或数据库中,然后通过数据分析得到分析结果,再将分析结果通过可视化映射形成可视化视图,并呈现给用户。用户则根据其分析任务,在上述流程中的各个阶段与数据进行交互(如选择和过滤要分析的数据、调节分析模型中的参数、切换不同的视图),以实现对数据的全方位分析。这种人在回路的可视分析方法为食品安全数据的关联分析提供了新思路,本节将根据食品安全领域中的4类关联分析需求,分类介绍关联可视分析方法,见表2。

    3.1 属性间的关联可视分析

    食品安全数据属性间的关联分析可以分为两属性相关性分析和多属性相关性分析,通常使用散点图、散点图矩阵、平行坐标、邻接矩阵等可视化方法将数据呈现给用户,通过交互手段,用户可以探索数据属性间的相关性和关联规律。

    3.1.1 两属性之间的相关性可视分析

    散点图由直角坐标系上的数据点构成,表明数据的二维属性之间的关系。Bian R Z等人提出了一种基于隐函数微分的多维投影方法,将红酒数据集通过主成分分析(principal component analysis,PCA)方法投影到二维平面上,并形成散点图,如图1(a)所示。对于多属性的相关性分析,可以使用散点图的扩展方法——散点图矩阵。散点图矩阵将n维数据每两维组成一个散点图(数据维度即数据属性),再将它们按照一定的顺序组成n×n的矩阵,即散点图矩阵,以揭示n维数据中所有维度两两之间的关系。为了同时探索多维数据属性间的相关性, Yuan X R等人提出了一种维度投影矩阵技术,用于交互式地探索和分析高维数据子空间,并将其应用于分析食品营养数据集,每个维度代表某种营养素。首先将美国农业部食品数据集经过多维标度分析(multidimensional scaling,MDS)投影在二维平面中,按照此图的聚类特征将维度分为4个互相独立的组,形成维度投影矩阵,以帮助用户探索和分析食品中多个营养素之间的关联关系,将食品按营养素的关联关系进行合理的聚类,如图1(b)所示。

    图1   属性关联可视分析方法图例

    3.1.2 多属性之间的相关性可视分析

    平行坐标(parallel coordinates)用一组平行的轴表示数据的属性,用穿过每一条轴线的一条折线表示一个数据对象,平行的轴是等距离分布的垂直线或水平线。采用平行坐标展现多属性数据可以帮助用户分析属性之间的相关性,以及数据的分布特征。Chen Y等人运用平行坐标展现农产品中农药残留限量值在中国、美国、日本、欧盟、国际食品法典委员会(Codex Alimentarius Commission, CAC)等国家/地区或组织的MRL标准中的取值,帮助用户对比多个MRL标准的差异。平行坐标可以很好地展现属性间的相关关系,但当数据对象增多时,会产生视觉杂乱。为了解决这一问题,陈谊等人对平行坐标进行了改进,提出了一种基于类区间的多维数据可视化方法,并应用到农药残留检测标准数据的分析中,如图1(c)所示。该方法首先根据数据的实际理化意义,使用K-means算法对原始数据进行聚类,然后引入类区间模型,将各类数据相互分离,从而形成了清晰的可视化聚类效果。此外,陈谊等人使用邻接矩阵,通过矩阵热图的颜色深浅映射维度之间的相关性大小,颜色越深表示相关性越大,并以检出农药为例,展示了不同农药属性维度之间的相关性,以挖掘某地区农产品中农药的施用模式。

    3.2 实体间的关联可视分析

    针对分析任务,实体间的关联关系可以分为实体间网络关系和实体间层次关系。

    3.2.1 实体间网络关系可视分析

    网络关系通常用图来描述,在图结构中,常将节点称为顶点,边为顶点的有序偶对,若两顶点间存在一条边,则表示这两个顶点具有相邻关系。基于图的可视分析方法结合了图分析理论和可视化技术的优势,将图的邻接表或者邻接矩阵转换为由点和线组成的图形,可以令研究人员直观地看到数据间的关联关系,其已成为分析复杂数据集中各种关系的有效手段。常用方法有节点-链接(node-link)法、邻接矩阵和弦图等。

    节点-链接法是一种典型的关联数据可视化方法,它用不同形状的节点表示实体,节点之间的连线表示实体间的关系。它既可以表达实体间的树状层次关系(节点链接树),也可以表达实体间网状的关联关系(图)。杨璐等人运用节点-链接法将某种食品与其检出的不合格项目进行连线,检出的不合格项目频率越高,连线越粗,与检测频率呈等比例关系展示,从而帮助监管者定位重点监管对象和监管项目。弦图可以展示关联数据间的权重关系,数据点之间的关系被绘制为连接两个数据点的弧(边),权重越大则边越粗。Narcisa P A等人设计了一种弦图来显示各危害物与乳制品之间的关联关系,如图2所示。

    图2   弦图,展现各危害物与乳制品之间的关联关系

    邻接矩阵是实体间网络关系可视化表示之一,它是一个N×N的网格(其中N为节点数),其中位置(i, j)表示节点i和j之间的链路权值。Chen Y等人提出了一种用于关联数据可视分析的有序矩阵表达方法,该方法用矩阵热图表示农产品和农药的检出关系,其中矩阵的行表示农药,列表示农产品,单元格的颜色表示农药残留含量,颜色越深,农药残余含量越高。如图3所示,该方法将数据抽象为二部图,将实体抽象为点,P、R、W分别表示两个独立的点集合和一个连接两点的边集合,将实体的RW值作为索引,表示实体在关系结构中的重要性。RW-Rank算法受到PageRank算法的启发,根据行向量和列向量的RW值进行排序,创建一个有序的关系矩阵,帮助用户定位关键实体并分析它们之间的关系。如图4所示,A1视图中矩阵A的行和列的排列顺序是按字母顺序排序的,便于用户按名称查找;A2视图中矩阵B的行和列则按RW-Rank算法排序,便于用户快速定位高残留量、污染严重的农产品和农药。

    图3   二部图,展现农药和农产品的关系

    图4   邻接矩阵,展现农产品和农药的相关性

    3.2.2 实体间层次关系可视分析

    实体间层次关系主要表现为包含关系和从属关系。例如食品通常有大类、亚类、次亚类、细类之分。对于层次数据,常用的可视化方法有节点-链接树、树图、放射环等。

    节点-链接树的层次关系表现为数据中父辈节点将子孙辈节点包围起来,展示了数据间的父子关系。齐红革等人运用节点-链接树构建食品分类图谱展示食品分类,使食品、食品添加剂分类由大类到细类清晰地呈现。树图由一系列嵌套的矩形组成,也可以说是在矩形空间中进行递归的分割,这些矩形的大小与相应的节点属性值成比例。大矩形表示数据树的一个分支,然后将大矩形细分为较小的矩形,表示该分支内每个节点的大小,还可以搭配颜色来表示不同的数据属性。Jia Y J等人提出了一种基于树图的可视化方法,用树图表示农药含量的分布以及农产品所在区域的层次化结构,该方法可有效地帮助专家按照区域和农产品类别的层次结构对数据集进行关联分析。事实证明,利用树图的可视化方案能够有效地展示食品安全领域中对于层次结构和关联关系展示的要求。Chen Y等人用树图保留节点间的层次关系,进而展示农药残留检测结果数据。图5(a)是天津市10个区2014年1月的果蔬农药残留分布情况,10个大矩形表示天津市的10个区,每个大矩形中包含的两个小矩形分别表示水果和蔬菜,颜色表示农药残留超标率 ,即检测出的农药残留量超过MRL标准值的次数与检测农药残留总次数的比值,超标率越大越接近红色。通过这种方法,食品安全领域的专家可以更有效地发现各区果蔬农药残留的分布情况,并根据不同的需求做出有效的决策。

    图5   实体间层次关系可视分析方法示例

    放射环也是一种展现层次关系的关联可视化方法,但是其内部空间利用率较低,因此,采用放射环和节点-链接法结合的方式能够同时显示两类层次数据。Chen Y等人充分利用放射环圆心附近的空间,将放射环与节点-链接树结合,提出了一种能够展示两类层次数据关联关系的可视化算法SONHC(sunburst with ordered nodes based on hierarchical clustering),并将其应用于可视分析农产品中农药残留的检出情况。该算法用外面的放射环展示农药的层次结构,圆环内部则通过节点-链接树展示农产品的层次结构;通过连线将农产品与检出农药建立关联,帮助相关分析人员检查农药和农产品的层次结构,并探索农药和农产品之间的关联以及不同农药之间的关联,如图5(b)所示。此外,杜晓敏等人基于圆环和放射环等提出了一种基于变换的可视分析关联图TransGraph,从而展示农产品与农药的检出关联关系和农药残留检出的层次关联关系。TransGraph能突出重点监管对象,全面展示关联信息,帮助相关监管部门和分析人员制定决策。

    3.3 对比分析

    对比分析是关联分析的一种常用方法,可分为数值对比和结构对比。

    3.3.1 数值对比可视分析

    在食品安全领域中,常用数值对比来对比分析检测值与检测标准值,或将食品受污染情况进行排序对比。图6是一个多属性排名可视分析系统,该系统采用平行坐标结合柱状图的可视化方法,展示多个农产品按多个农药残留评价指标(包括单因子和多因子综合指标)的排名情况,通过多视图联动、数据筛选、属性选择等交互手段,帮助用户全面理解各种农产品受农药残留污染的排名情况,可对比分析各农产品及其农药残留情况。

    图6   多属性排名可视分析系统,展现多个农产品在多个农药残留评价指标的排名情况

    3.3.2 结构对比可视分析

    在食品安全领域,通常需要比较两个按某种结构组织的数据集,如两个农产品分类体系的比较、两个MRL标准的比较都可以抽象为树比较的问题。结构对比可视分析最常用的方法是并置法,即将比较的数据直接可视化并放在同一个视图中,通过观察对比的方式完成。Chen Y等人将不同MRL限量标准抽象化为两个树,通过两个嵌套圆并置(如图7所示)来可视化两棵MRL树,帮助用户对比分析中国内地和中国香港的MRL标准。嵌套圆结合了节点-链接图和树图的优点,用圆的面积表示节点的属性值,用圆的嵌套关系表示节点间的层次关系,所有的子节点圆都被包含在父节点圆中。由于MRL标准是按农产品分类(树结构)来制定限量值的,该方法的两个MRL标准比较问题就转化为了两棵树的比较问题。用嵌套的结构描述农产品分类的层次结构,用圆的面积表示某农产品涉及MRL标准值的记录数,图7中的左嵌套圆为中国内地MRL标准,右嵌套圆为中国香港MRL标准。

    图7   嵌套圆,对比分析中国内地和中国香港的MRL标准

    3.4 时空分析

    食品数据具有时间和空间特征,对食品数据进行时空分析可以探索食品属性与时间、空间的关联,让分析人员掌握食品安全问题在地域上的分布特征和随时间推移的发展趋势。

    3.4.1 食品属性与时间的关联可视分析

    食品安全数据在时间序列上存在的潜在规律(如多年农产品中的农药残留检出频次具有周期性特征,一年中不同季节的农药残留也呈现出不同的特征等)能有效地帮助人们对食品安全事件发生的时间进行预测,对安全问题进行提前预防。基于时间的可视化方法能够较为直观地反映数据随时间变化的规律和趋势,同时能够展现数据细节。时序型数据通常以时间线的方式来表示,图8(a)以时间为轴,展示了7种农产品的农药超标率随时间的变 化情况,其中气泡颜色表示农产品类型,大小表示农药残留超标率的值。Chen Y等人提出了一种被称为有序树图序列(ordered small multiple treemaps,OSMT)的时变层次数据可视化方法,它采用树图并置的方式实现对层次数据随时间变化的可视化表示。图8(b)为使用该方法对2014年天津市10个地区的果蔬农药残留超标率的变化情况进行可视化的结果,可以看出,图8(b)中的12个树图并置表示12个月的变化情况,每个展示层次数据的树图表示某个月天津市10个地区果蔬农药残留的超标率。主题河流(ThemeRiver)也是一种常用的时间关联可视分析方法,其在时间维度上以河流的形式展现数据的变化情况。甄远刚等人提出了一种改进的非连续数据ThemeRiver可视化方法,利用高斯模型曲线拟合,通过主题布局排序、颜色选择和标签分布布局一种具有预测功能且能够展示层次特征的新型主题河流模型,并将其应用于农药残留数据监测,为农药残留预测预警提供依据。


    图8   时间关联可视分析方法示例

    3.4.2 食品属性与空间的关联可视分析

    食品安全数据的地域分布能够帮助研究人员定位食品的采样地、原产地等,是食品安全预警和溯源的重要依据。通常地理信息系统(geographic information system,GIS)被用来显示数据在地域上的分布情况。统计地图(choropleth map)可视化假设数据的属性在一个区域内部平均分布,通过颜色表示数据的内在模式。庞国芳等人研发了农药残留可视化在线制图系统,编制了中国市售水果蔬菜农药残留水平地图集,展示了不同MRL标准下的农药超标情况。

    统计地图最大的问题在于数据分布和地理区域大小的不对称性。变形地图(cartogram)可以解决此问题,变形地图可以依据某个专题属性对地理要素进行扭曲、变形,用相对属性值的大小取代真实面积,利用夸张的效果更直观地反映数量特征。Vanasse A等人比较了加拿大各地区的肥胖率,并评估了各地区的成人肥胖率、休闲时间体育活动水平和水果蔬菜摄入量之间的生态关系。由于各地区人口密度不同,为了更科学地反映结果,将地图按人口密度进行了调整,如图9(a)所示。Plaza-Rodríguez C等人应用变形地图探讨德国各州零售生鸡肉样品中弯曲杆菌检出率的地区分布,如图9(b)所示,德国各州的大小根据弯曲杆菌检出率进行了修改,导致地图的原始地理形状和拓扑结构被扭曲了,让地理面积小且检出率高的地区也同样能受到关注,食用过此鸡肉的患者也能被及时监管。Chen Y等人创建了中国农药残留分布地图,统计地图中渐变的紫色区域表示抽样农产品中检测到的农药残留量超过MRL标准值的频次,变形地图使用扩散算法基于上述频率值生成。

    图9   空间关联分析可视分析方法图例

    4 问题与挑战

    从前文可以看出,大数据技 术已成为食品安全风险监控的重要手段,可视分析在食品安全风险分析和预警方面开始发挥越来越重要的作用,并已取得一定进展,但仍面临一些问题和挑战。

    (1)多源异构数据的融合处理与可视分析

    随着检测技术的进步和计算机网络技术的普及、食品安全数据的规模快速增长,数据的准备和处理呈现出人力成本高和时间周期长两大特点,数据类型也呈现出多样化特点,包括数值、文本、图像、视频或这些数据类型的组合。近年来,针对数值型结构化数据的可视分析技术和方法已取得了丰富的成果,但针对文本、图像、视频等非结构化数据的分析仍面临挑战。如何在可视分析流程中结合数据分析、文本挖掘、图像识别、视频处理等技术实现对多模态数据的可视分析,帮助食品安全领域的人员实现风险识别、风险发现、风险分析,仍是一个亟待解决的问题。

    (2)人工智能在可视分析过程中的应用

    以机器学习为代表的人工智能技术已开始应用于可视分析流程中的各个环节。在数据分析阶段,人工智能可以为数据的预处理、数据变换、数据投影等多个步骤提供准确高效的方法,也可以为食品安全风险评估、趋势预测提供科学的模型;在可视化阶段,应用人工智能技术对数据和分析任务进行处理、分析和学习,实现对可视化设计方案的选择,包括映射方式(散点图、平行坐标、节点-链接等)、布局(正交、径向等)、配色方案等,自动生成可视化解决方案,从而减轻领域人员在可视化设计方面的负担。

    (3)设计易于理解的可视分析系统

    从事食品安全数据分析工作的人员通常不是计算机领域专业人员,现有大部分可视分析系统提供的可视化表达相对复杂,对于领域用户,即使其具有丰富的领域专业知识和经验,也需要经过一定程度的培训后才能熟练使用,这就限制了可视分析系统的广泛应用。因此,设计更易于理解和使用的可视化表达(如对人们熟悉的散点图、柱状图、节点-链接等进行改进)、开发方便易用的交互方式(如应用虚拟现实和增强现实设备实现更自然的人与数据的交互),也是当前亟待解决的问题。

    5 结束语

    食品安全大数据可视分析技术通过提供图形化的交互界面,帮助用户洞悉蕴含在数据中的现象和规律,提高对食品安全风险的分析、发现、预警和溯源能力,为食品安全监测和管控提供了新手段。本文分析了食品安全大数据 的主要来源、特征和分析任务,提出了一种关联可视分析技术分类方法,从属性关联、实体关联、对比分析和时空分析4个方面总结了食品安全大数据可视化关联分析方法,最后从多源异构数据的融合处理与可视分析、人工智能在可视分析过程中的应用、设计易于理解的可视分析系统3个方面提出了该领域存在的问题、机遇和挑战。未来工作是将人工智能与可视分析技术结合,特别是使用结合数据挖掘、机器学习、深度学习的可视分析方法,解决食品安全风险分析、风险识别、风险预警和风险溯源等问题,提高对食品安全的监测和管控能力。

    作者简介

    陈谊(1963-),女,博士,北京工商大学教授,食品安全大数据技术北京市重点实验室主任,中国图象图形学学会可视化与可视分析专业委员会副主任,中国计算机学会杰出会员。主要研究方向为可视化与可视分析、智能信息处理、食品安全大数据技术。2016年获得中国分析测试协会科学技术奖(CAIA奖)特等奖,2017年获得中国石油和化工科技进步奖二等奖。多次担任PacificVis、ChinaVis、ChinaVR等可视化学术会议程序委员会委员和审稿人。

    孙梦(1996-),女,北京工商大学计算机学院硕士生,主要研究方向为可视化与可视分析、食品安全大数据技术。

    武彩霞(1998-),女,北京工商大学计算机学院硕士生,主要研究方向为可视化与可视分析。

    孙小然(1997-),女,北京工商大学计算机学院硕士生,主要研究方向为可视化与可视分析。

    联系我们:

    Tel:010-81055448

           010-81055490

           010-81055534

    E-mail:bdr@bjxintong.com.cn 

    http://www.infocomm-journal.com/bdr

    http://www.j-bigdataresearch.com.cn/

    转载、合作:010-81055537

    大数据期刊

    《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年、2019年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

    关注《大数据》期刊微信公众号,获取更多内容

    展开全文
  • 作为一名热爱数据分析、通过努力拿到心仪offer的学生,是许许多多通过努力实现目标的学生...关键词:数学建模、大数据时代 从小就特别喜欢数学,高考146,大一时特别顺理成章的参加了数学建模的校内比赛,接着一直到...

    作为一名热爱数据分析、通过努力拿到心仪offer的学生,是许许多多通过努力实现目标的学生中的普通一员。一路走来,我把自己的经历按照时间线写下来,中间穿插我的经验,在记录自己工作的同时,希望能给想要进入数据分析师岗位的学弟学妹们一点点的小收获。

    一、本科4年,初识数学建模,爱上统计

    关键词:数学建模、大数据时代

    从小就特别喜欢数学,高考146,大一时特别顺理成章的参加了数学建模的校内比赛,接着一直到大三,参加各种数学建模比赛,也是在比赛中,认识了我一辈子的好朋友——我的队友。大二时拿了大学生数学建模四川省一等奖,大三拿了美国大学生数学建模比赛一等奖。直接引导我想走数据这条路的,是我在大二时修的统计学基础的课程,老师讲得特别好,上课时讲解样本、抽样这些概念时,我听得津津有味,也是那时候,大数据的概念慢慢火起来,我买了当时最火的一本书——《大数据时代》。那时,第一次听说了啤酒与尿不湿的故事。接着,上网百度了大数据时代,好嘛,说行业欣欣向荣,人才需求旺盛,好嘛,哥来了,无论如何要投入大数据的怀抱!

    那时候对统计的基础知识还是有的,SPSS能给熟练使用,由于数据建模比赛,小小的学了点matlab、sas,不过现在还没整太明白(哥可是负责建模和写论文的好嘛!)那时候还对SQL完全没概念。

    二、保研,转到信息管理专业

    关键词:转专业、哈工大、数据挖掘概念与技术、统计学

    大三暑假,参加了很多保研夏令营,算是缘分,来到哈工大管理学院管理科学与工程下面的信息管理专业读研究生,融入到了一个满是互联网说辞的环境中。

    当时的梦想就是去阿里巴巴工作,原因很简单,离家近、海量、超级有价值的电商数据,马云大大,等我!

    研一课程特别多,那先好好上课吧!过去1年多,几乎所有课程内容我都忘记了(囧)。唯有2门课程认真听讲了,其一是我们院长叶强老师讲的数据挖掘,推荐教程是《数据挖掘概念与技术》,韩家炜老师写的,行业大拿啊,数据分析、数据挖掘行业的入门书籍呀!那时候知道了k-means聚类、神经网络、关联规则这些牛逼哄哄的算法,嗯,搞数据的大概就是做这些的吧,听起来还有点小激动呢!其二是葛虹老师讲的高级统计学,扎扎实实的又把统计学的基本方法学习了一遍,相关分析、回归分析、时间序列、多元回归、logistics回归,然后每2周一次的上机实验,拿数据用SPSS、Excel分析,实际的操作了数据分析。

    三、学习,积累,陷阱,进步

    关键词:学习、定位

    我们专业毕业做据分析师这个岗位的还是少(我们专业可是叫信息管理,去ERP公司比如SAP才是王道哎呦喂)。只能在网上搜索。

    首先,我知道了中国统计网,这是个不错的网站,关于技术的、业务的、统计基础知识的,都有,对于我要成为一名数据分析师很有帮助。

    再然后,我在知乎上找到了这个人,卡牌大师,找到了这样一个答案https://www.zhihu.com/question/29265587/answer/44010658,从此,我就跳到了一个大大的坑里面,陷入了无穷无尽的Python和R学习中,导致对于我,有点本末倒置。以为数据分析师是整天用python和R写各种高大上的代码的。

    但实际上,这是因为现在业界对于数据分析师、数据挖掘师这类岗位的界定不清楚。但就以我现在3段数据分析师的工作经历来看,这两类还是可以很清楚的区分开来的,也给学弟学妹们提个醒,找好自己的定位:

    1、数据分析师,主要技能SQL、Excel,从数据库里写SQL语句得到数据,然后在EXCEL里加工可视化后做成报表或者报告,利用你的商业敏感度,给出可靠的结论。听起来很简单是不是,但这其中需要的商业敏感度,确是最需要积累的。具体方向有3个:数据产品、决策支持、数据运营。其中,数据产品 PK需求把控&项目管控能力;决策支持 PK商业sense(例如做营销,360网址导航这种每月几百万的框架到底要不要签?);数据运营 PK提炼特征能力综上,你会发现在互联网公司,数据分析师要处理的问题,跟营销、产品、运营一样。

    2、算法工程师,主要技能数学功底+统计功底+实打实的写代码能力+看论文读最新算法论文的能力。要求相当高。对应岗位推荐算法工程师、搜索算法工程师、文本挖掘、语音识别、图像处理这类算法工程师。比如阿里,做推荐的算法工程师基于访客、商品、商家的在线、离线信息等等数据库的数据,来得到一套推荐的逻辑,通俗点说,怎么给出个公司,给每个商品算个得分,排列出来给买家看到,买家会想要买更多的商品。而这背后的算法,其实市面上大部分机器学习的书都覆盖不到,是需要算法工程师基于算法基本功(数据结构、核心算法范式)+商业感觉(业务逻辑、综合行业运营、分析师的假设经验)+利用数据不断的实验迭代得到最好的结果、获得参数、还要担心本身样本不随机带来的系统偏差等等问题。

    听了介绍,你应该比较理解了!其实最简单的找到自己定位的方法,就是找到你心仪公司的校招岗位,看底下的岗位要求,找到你最感兴趣的、跟你的能力和经历最匹配的,就可以啦!So easy!妈妈再也不要担心我找不到方向啦!哈哈哈!

    四、研一寒假,第一次实习经历

    关键词:第一次实习

    对于找工作,我很着急,生怕找不到工作,于是乎,快寒假的时候,那时候我才转专业1个学期哟,我就开始在网上投实习简历了,我在拉勾网上投的简历。

    是一个创业公司,主营业务是数据驱使的营销策划公司。跟我还挺对口的,营销和数据的结合嘛获取数据的主要途径是网络爬虫获取,分析方法是文本数据挖掘。举个例子,当时我在的项目组是电动汽车的销售现状分析。首先,了解到汽车之家、爱卡汽车等汽车论坛是汽车类数据的一个非常重要的来源,论坛上包含口碑、价格、评论等数据,非常的全面。于是,团队里面的一个计算机专业的博士,就负责用网络爬虫,把数据爬取下来,然后我们用公司自己写的一套软件进行分词,然后词频统计,词条关联分析,然后blabla的给出一套分析结果,然后blabla的给出营销解决方案。就酱紫

    实习了大概1个月,就过年了,然后我就回家了,挺对不起老板的!

    五、调整学习方向,学习数据库和SQL

    关键词:SQL、调整方向

    经过第一段实习,以及我百度的有关数据分析师的文章,我知道了数据分析师要求的精髓:业务理解+SQL、Excel等技能,于是乎,我开始调整了我的学习内容:重点了解如何对一个公司的业务进行分析、SQL语句、Excel提高。

    六、课程基本结束,我去北京找实习

    关键词:投简历、面试

    研究生课程基本在2015年4月就结束了,我非常着急找实习,始终认为实习才是找到好工作最重要的敲门砖(事实证明真的是如此!)于是乎,我又开始投简历,拉勾网,应届生招聘网(我投简历的途径比较单一,其实找学长学姐推荐也是非常不错的一个选择,大家一定要多多和自己的学长学姐交流,他们都是非常乐意和学弟学妹分享经验的!)投了大概有20家吧,城市都是北京,岗位都是数据分析师。于是我和面试官沟通,把面试都安排到一周内,于是我就到北京参加一连串的面试了。

    1、聚美优品的数据分析师。我按照和HR约定的时间提前到了,还做了一套性格测试的题目,填了份需要写家庭情况的问卷。填完之后,我就在等了,然后HR来跟我说,要面试我的那个boss现在在开会,不知道到什么时候,让我明天来。结果面试完第二天给我打电话说这个岗位针对以后要去成都的重点培养,(内心os:你妹,岗位说明也没说呀,浪费我时间!)问我去不去,我说不想去。Over!

    2、美团外卖的数据分析师,面试前还进行了一轮笔试,考的是纯纯的SQL题目,当时我SQL还不是那么熟练,不太确定的发给我的同学让帮忙看一下,哈哈~~然后面试时候的流程很规范化,看看笔试题、介绍自己、介绍项目、对美团外卖了解不了解、和其他的竞争对手对比怎么样(这个问题真的挺重要的,很多面试官都会问,答案也能扩展他们的思路啊,多一举多得的好题目呀)。当时因为我真的不知道面试的部门是外卖部门,所以回答的不太好。最后问我有没有什么问题。我问了:平常分析工具都有哪些?其他忘记了。

    3、联想的用户研究。电话面试,很常规。

    4、百度商务搜索部的数据分析师。3轮面试。第一轮,主要让我介绍自己的项目,我就blabla说,第一轮面试官是校友,我还尝试套一下近乎,心中窃喜。第二轮,问了我许多算法的东西,让我现场画神经网络的示意图,让我写k均值聚类的建模过程(内心os:阿西吧,投错岗位了,数学模型写公式这些我都不会呀,平常就是直接丢到程序里面跑的)。硬着头皮把我知道的一点点写了下来。然后就是问我有什么问题吗?我回答:没有什么问题了(我是真的不知道问什么呀!!!)好了,居然还有第三轮,面试官很忙的样子,中间一直还得在电脑上和同事交流。直接把电脑给我,给我一个数据,让我写一段程序,实现分组······听起来很简单对吧,我尝试用了python,毕竟我还是买了几本python书学习过的,但是吧,学了等于没血,我写不好······至此,我知道,肯定没有希望了。(不管是实习还是正式工作,公司招聘人员都希望招到一个马上上手就可以做事的人,你不会,那对不起,再见;一定要根据自己的技能来对应岗位投递,要不然,只能是浪费时间,自取其辱···)

    5、nice。以前我根本没有听过nice。投岗位的时候也是不经意,可能是看到薪资很高吧(6k,其他公司都是100块/天,工资能给这么高的公司,应该还不错吧)。在北京的时候,HR打电话过来说,boss觉得我说的3个月实习时间太少了,问我能不能延长到5个月,如果不行,那就不匹配了。当时的我,毫不犹豫的说可以啊!(其实说真的,实习3个月,公司的培养成本很高的,实习生也学不到什么东西。但是对于我们学生来说,很难有3个月的整时间来实习。所以,一旦问到实习时间的问题,如果你真觉得这个岗位不错的话,一定先要答应说可以实习3个月,毕竟我们找工作不容易嘛,嘤嘤嘤,不要骂我···)然后HR说,好,他再跟boss商量下。我说好。

    然后我就回学校了,某天约好晚上8点钟电话面试(创业公司都会加班到很晚,而且大家都觉得那不叫加班,这就是生活!)。这是一次非常好的面试和一次非常棒的实习!

    面试主要问3部分:(1)我自己的项目介绍。(2)SQL语句。左连接、右连接,各种查询。(3)对nice这个产品的分析。全程面试官非常专业,问的问题很有水平,语气非常谦和,反正就是舒服!面试结束,等结果,第二天通知过了,问我什么时候能去实习。

    一个星期后,基本上结果都下来了,拿到了nice、美团、联想的实习offer,选择去nice。

    七、从5月到9月,踏实学习工作的5个月

    关键词:nice、《数据挖掘与数据化运营实战》、SQL

    回忆这半年,思绪万千,总结来说,付出就有收获!我在nice的技术部门的数据组,做数据分析师,满足运营、市场等部门的数据需求,自己根据对业务的了解做数据分析。

    前2个月,我认真学习,阅读公司的学习资料,熟练写SQL,运用Excel,阅读书籍,推荐几本书,《数据挖掘与数据化运营实战》,《数据化管理》,《谁说菜鸟不会数据分析》,值得数据分析的实习生们反复阅读,提升对业务分析的理解,也足够应对面试官们给出的业务分析的题目。再2个月,潜心学习python,希望能用python解决Excel处理不了的海量(上百万、上千万条)数据,并且提高我的工作效率,毕竟我在的是技术组。

    从6月开始,我就开始潜心准备阿里巴巴数据分析师的内推了。阿里巴巴是我一直非常想去的公司。在7月底8月初,陆续参加了3轮技术面试+1轮HR面试,拿到内推的offer。然后非常幸运的是,8月初参加了nice一年一度的国外旅行,去了日本!!!好公司呀好公司!!!8、9月份已经能够比较自如的应对工作的需求。认识了一个非常好的领导,一群非常棒的小伙伴,特别开心,离职的时候特别舍不得大家。

    八、我是如何准备阿里内推的

    关键词:阿里巴巴7月内推、充分准备

    阿里内推大概是7月底开始,我找了我公司的同事的同学帮我内推(只要是阿里巴巴的员工都可以帮忙推荐,可以联系自己在阿里巴巴工作的学长学姐帮忙推荐,或者联系我也可以_)。内推一般都是电话面试,可以自己选择城市的,成本低、可选择,多好!我投了数据分析师的岗位、工作地点在杭州或者上海。

    7月20号左右收到了第一个面试电话(当时我们班里几乎所有人都投了阿里巴巴,很多人陆陆续续都收到了第一轮电话,我当时很失落,难道第一轮面试都没有我吗,好惨!后来证明是,每个招聘的部门时间会不一样,根据自己部门最近工作紧张与否来决定,如果你对自己有信心,耐心等候即可。)

    古话说,不打无准备之仗,我有一个好习惯:提前做好准备。比如,准备阿里内推,我写了一份10000字的文档:

    (1)按照我自己的思路,按照比较口语化的文字,整理好我的每个实习经历、项目经历、比赛经历,保证一旦问到介绍自己的经历时,就可以非常思路清晰的、流畅的回答出来。

    (2)准备好淘宝分析相关的问题,比如我准备了:数据技术及产品部介绍、淘宝数据分析工具有哪些、淘宝数据产品技术架构、淘宝监控的数据、中秋淘宝月饼购买报告、淘宝店铺流量来源与构成、手机淘宝用户行为分析、淘宝数据分析:基础方法、母婴数据分析、我对数据分析师的理解、淘宝100指数等这些问题。

    事实证明,这些问题极大地扩展了我回答面试题目时候的思路,有的还是完全一样的题目,提前准备好,保证面试时胸有成竹,不慌不乱!

    3轮技术面试基本的步骤都是:“介绍自己的项目”+“几个淘宝业务分析的题目”+“你有什么想问我们的吗?”这样的顺序。第一轮面试我的是我现在的主管,P7;第二轮面试我的是我们部门的大boss,直接汇报逍遥子的;第三轮是交叉面试,北京打来的电话,至今不知道是哪位师兄。

    第三轮技术面试回答的不太好,就默默等HR了,那时候去日本玩去了,把手机丢给了我同学,如果HR打电话了,那就是基本能够录取了(我听说,只要接到了HR面试电话,基本上就是能够录取了,除了一些价值观特别不相符的)。那天晚上看手机突然有个我同学的未接电话,花火大会也没参加就赶紧回酒店回电话了,内心那个激动啊!HR居然首先问了我现在会的技术、用的工具,然后问我以后的职业计划,为什么想来阿里,我就回答了。聊得开心的时候,还哈哈大笑!(内心os:基本上定了,哈哈哈)

    然后回国后,1周内,收到了录取电话,告诉我过几天发邮件,内心狂喜!

    九、拿到阿里offer之后

    关键词:努力就有收获

    拿到offer后,感悟良多,煲了好多碗鸡汤:“愿望还是要有的,万一愿望实现了”、“努力就有收获”、“努力的人一直很幸运”!

    毕竟每天工作学习到11点、每周来回在北京和学校之间火车来回的日子,容易让人成长!(哈哈哈,好矫情!)

    高兴了好久!

    当然,高兴之后是另一段旅程,要继续好好学习了!

    回公司好好工作,9月初回校开学1周,象征性的参加了些宣讲会,然后9月中旬离职,回家过中秋节,我的第一份正式工作就这样定了。

    十、尘埃落定

    现在的我已经入职了阿里巴巴数据分析师的岗位,实现了自己目标的感觉真好!

    我总结我的这一路就是:

    找定位——练技能——实习再实习——定工作,多学习、多阅读、多沟通。

    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    想要成为一名合格的数据分析师,需要看哪些类型的书
    python数据分析师待遇有多少?工资待遇如何?
    怎么才能转入大数据领域 ,成为一名合格的大数据分析师


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 因为从业于大数据相关领域,所以身边数据服务的变化非常敏感,而近年来也的确颇为深刻地感受到了身边数据服务形式的变迁,以及带给我们生活的变化。数据服务的形式经历了:结果型数据服务、灵活型数据服务、个性化...
  • 【比特大数据】第一辑:手机信令大数据格式及应用价值 一、什么是手机信令大数据 手机信令是手机用户与发射基站或者微站之间的通信数据,只要手机一开机,并且手机屏幕上显示出运营商(中国移动、中国联通、中国电信...
  • ① 在大数据环境下,如何精准的有购房需求的用户进行人群画像分析。 ② 海量APP,在投放中究竟该选择哪些APP作为首要投放媒体。 ③ 如何提升网民广告的关注度体验度,并且顺利留下联系方式。    3...
  • ”那么,大数据和数据分析的贡献不可磨灭。每天客户都会产生数百万字节的数据被移动应用程序开发者利用,用户不仅需要及时了解他们的移动体验和实时情景,而且还要在多个设备上都享受到其服务,并为其决策提供足够的...
  • 在科学技术日新月异的时代中,数据与媒体行业间的联系也日益紧凑,计算机设备在...大数据”背景中新闻传播现状进行研讨具有实现性意义,本文进行详细解析。 很多初学者,对大数据的概念都是模糊不清的,大数...
  • 该项目主要分析深圳通刷卡数据,通过大数据技术角度来研究深圳地铁客运能力,探索深圳地铁优化服务的方向; 强调学以致用,本项目的原则是尽可能使用较多的常用技术框架,加深各技术栈的理解和运用,在使用过程中...
  • 大数据在都市区规划中的运用1、什么是手机信令数据手机数据一般可以分为两种类型:一种是手机通话数据(Mobile CDR Data),即通过手机用户之间的通话频率和时长来反映城市之间的信息联系强度;另一种则是手机信令...
  • 前言互联网的飞速发展促进了很多新媒体的发展,不论是知名的大 V,明星还是围观群众都可以通过手机在微博,朋友圈或者点评网站上发表状态,分享自己的所见所想,使得“人人都有了麦...
  • 4S店的大数据营销实战案例分析

    千次阅读 2019-06-06 10:56:43
    4S店是汽车市场激烈竞争下的产物,取代了传统的代理销售体制,能为客户提供更...将线下或互联网上获取的客户信息导入到大数据平台,进行客户属性分析,筛选出目标客户,然后针对这些客户进行广告推广。大数据营销...
  • 大数据技术金融行业的影响巨大,金融业信息系统的实际应用前景还是非常大的,金融业信息系统的实用性要求很高,且积累了大量的客户交易数据。目前金融业主要信息需求是客户行为分析、防堵诈骗、金融分析等。 1...
  • 大数据风控按照通俗的概念解析:通过运用大数据构建模型的方法借款人进行风险控制和风险提示。 这句话涵盖大数据风控必要的4个要素: 1. 原材料:大数据 2. 实现方式:技术模型 3. 目标人群:场景中的群体。 ...
  • 基于当前现状的大数据GIS应用分析

    千次阅读 2020-04-16 10:54:20
    大数据GIS能为室内空间大数据的储存、剖析和数据可视化出示更优秀的基础理论方式 和软件系统,推动了传统化GIS的产业结构升级,为自然地理大数据产业发展趋势出示新的方式和源动力,服务项目于在我国“十三五”期内...
  • 大数据对思维方式的重要影响

    千次阅读 2018-03-05 09:51:00
    1.试述大数据对思维方式的重要影响。 大数据思维能使我们在决策过程中超越原有思维框架的局限。每个人都是依据自己现实的认识和判断而不是现实本身作出行动决策的。以数据为基础的智能决策有两个步骤。第一是...
  • 大数据应用以及原理分析

    千次阅读 2014-03-12 23:20:40
    大数据应用以及原理分析
  • 参考:https://www.jianshu.com/p/967f7bcd7a25 https://www.jianshu.com/p/cffbdffb72e4 项目背景与需求分析
  • 互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博,朋友圈或者点评网站上发表状态,分享自己的所见所想,使得“人人都有了麦克风”。不论是热点新闻还是娱乐八卦,...
  • 谈谈对大数据的八个观点分析

    千次阅读 2019-05-17 20:22:09
    越来越多程序员也涌入大数据行业,但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的,最常引用Victor的4V理论,大量(Volume),快速(Velocity),种类多(Variety),价值(Value),但究竟多大是大?多快是快?几...
  • 一、什么是手机信令大数据 手机信令是手机用户与发射基站或者微站之间的通信数据,只要手机一开机,并且手机屏幕上显示出运营商(中国移动、中国联通、中国电信)字样,信令数据就开始产生了。之后当你使用手机拨打...
  • 第11章华为P30手机评论画像分析Hadoop大数据原理与应用西安电子科技大学出版社知识与能力要求第11章 华为P30手机评论画像分析11.1 需求分析11.2 项目设计11.3 项目环境搭建11.4 数据采集与预处理11.5 使用Hive分析...
  • 大数据多维分析平台的实践

    千次阅读 2019-06-23 21:35:00
    大数据多维分析平台的...数据进入了大数据平台,相伴而来的是各种业务需求,这里主要聚焦在如何高效稳定的基于大数据平台的数据进行查询。通过分析,我们面临的挑战如下: 亿级别表下任意维度和时间跨度的高效...
  • 医疗健康大数据:应用实例与系统分析

    万次阅读 多人点赞 2019-01-17 21:41:16
    来源:网络大数据1 、概述随着信息技术和物联网技术的发展、个人电脑和智能手机的普及以及社交网络的兴起,人类活动产生的数据正以惊人的速度增长。根据国际数据公司(Intern...
  • 大数据下的用户行为分析

    万次阅读 2016-01-26 10:10:25
    从最初到现在,Hadoop系统在7年中开发完成了一系列重要的子项目,已经形成了一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位最重要、应用最广泛的开源框架。 核心组件...
  • 文中通过对大数据的简单介绍,进而分析大数据对专题地图制图思想,方法原则与制作样式等方面的影响。大数据下的专题地图数据来源更多,种类将更加丰富,专题地图的应用前途也将更加广阔。   关键词: 大数据; ...
  • 大数据分析的火爆,也带火了互联网金融公司。面对当下大数据分析发展的势头正猛,多少人都开始前仆后继地想在大数据分析行业分得属于自己的一杯羹。但是,想成为数据分析师是非常不简单的,你不能单单靠自学,更不能...
  • 浅谈对大数据的理解

    万次阅读 多人点赞 2019-02-02 17:15:37
    大数据(big data): 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 4V特征: ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 32,504
精华内容 13,001
关键字:

大数据对手机的需求分析