精华内容
下载资源
问答
  • 多维度数据分析

    千次阅读 2016-05-04 11:46:26
    在零售业中,数据分析大多采用汇总、对比、趋势预测、交叉等...可以说,数据分析的维度弥补了众多分析方法独立性,让各种方法通过不同属性比较,细分,使分析结果更有意义。 横看成岭侧成峰。我们在看待事物时...

    在零售业中,数据分析大多采用汇总、对比、趋势预测、交叉等几类方法,尤其是交叉分析使用率颇高。交叉分析,顾名思义,是指对数据在不同维度进行交叉展现,进行多角度结合分析的方法,弥补了独立维度进行分析没法发现的一些问题。可以说,数据分析的维度弥补了众多分析方法的独立性,让各种方法通过不同属性的比较,细分,使分析结果更有意义。
    横看成岭侧成峰。我们在看待事物的时候,如果从不同角度看,往往会得出不同的结果。在对业务数据进行分析时,也会有这种现象。如现在对某个区域的销售数据进行分析。如果以年销售额来分析的话,也许可以发现每年的销售收入都在成比例增长。这是一个不错的结果。但是如果从客户的角度出发进行分析,管理员可能会发现一些老客户的销售额在逐渐降低。

    什么是数据分析的维度?

    我们如何理解多维数据中的维?维是人们观察事物的角度,同样的数据从不同的维进行观察可能会得到不同的结果,同时也使人们更加全面和清楚地认识事物的本质。


    当数据有了维的概念之后,便可对数据进行多维分析操作,常见的多维分析操作主要有:钻取(上钻和下钻)、切片、切块、旋转。钻取:钻取是改变维度的层次,变换分析的粒度。钻取包括上钻和下钻,上钻是在某一维上将低层次的细节数据概括到高层次的汇总数据的过程,减少了分析的维数;下钻则是相反,它是将高层次的汇总数据进行细化,深入到低层次细节数据的过程,增加了分析的维数。切片和切块:在多维分析中,如果在某一维度上限定了一个值,则称为对原有分析的一个切片,如果对多个维度进行限定,每个维度限定为一组取值范围,则称为对原有分析的一个切块。在多维分析中,维度都是按某一顺序进行显示,如果变换维度的顺序和方向,或交换两个维度的位置,则称为旋转。

    多维度数据分析的典型描述

    比如一个典型的商品销售数据库,记录了商品销售的详细情况,则我们可从这么几个方面来对销售数据进行分析:从产品的角度,可以按产品的类别、品牌、型号来查看产品的销售情况;从客户的角度,可以按客户的类别、地区等来查看产品的购买情况;从销售代表的角度,可以按销售代表的部门、级别等来查看产品销售业绩;从时间的角度,可以按年度、季度、月份等来观察产品销售的变动情况。其中产品、客户、销售代表、时间分别是四个不同的维度,每个维度都从不同方面体现了销售数据的特征,而每个维度又可按粒度的不同划分成多个层次,称为维度成员,多维分析中另一个重要的概念是数据指标,简称指标,指标代表了数据中的可度量的属性,在上面的销售数据中有两个重要的指标是销售数量和销售金额。

    多维度数据分析的典型案例


    看起来还不错,显示的信息非常丰富,左边包含了以天为单位时间维和产品维,可以使用展开按钮进行汇总和展开,就像是细分的操作;上面的表头部分分两层罗列了地域维和指标维,Excel的透视表提供了丰富的设置,默认展现基于各个维度的汇总数据,让我们可以从“总-分”的角度观察数据,这对数据分析非常有用。假如我们使用上面的透视表进行交叉分析发现数据是否存在异常?

    使用从总体到细节的分析方法,首先可以从查看每天销售额和转化率的汇总数据开始,折叠产品维之后观察最右侧的指标汇总列就可以看到每日汇总数据;如果某一天的销售额或转化率出现了大幅的下滑,我们就可以结合各种维度寻找问题的原因,就是基于各种维度的细节数据,展开产品维观察当天的哪类产品销售出现了问题,然后结合地域维的交叉数据,可以定位哪类商品在哪个省份的销售出现了问题,这样就有效地将问题定位到了细节的层面,能够更好地发现问题,进而解决问题。所以交叉分析其实正是体现了分析“分而析之”的本意。

    展开全文
  • 实现数据的多维度分析
  • 当前端查看结果,筛选条件可以是维度的各种组合,不同的业务id、渠道、版本,uid可以相同,因此根据条件做sum肯定不能满足需求的,请问如何实现?现在知道的一个笨方法是:每种组合都分析一遍。请大神指点,谢谢...
  • 用于分析多维度地理信息数据的动态可视分析(Attribute Signatures: Dynamic Visual Summaries for Analyzing Multivariate Geographical Data )是Turkay, Cagatay, Slingsby, Aidan等人于2014年12月在IEEE可视...

    一、论文介绍

    用于分析多维度地理信息数据的动态的可视分析(Attribute Signatures: Dynamic Visual Summaries for Analyzing Multivariate Geographical Data )是Turkay, Cagatay Slingsby, Aidan等人于2014年12月在IEEE可视化与计算机图形汇刊发表的论文。该论文旨在解决地理位置相关的多元属性由于受屏幕空间和地图大小限制,一次只能同时可视化的展示少量属性的问题。由于地理数据可视化普遍要求保留地图信息,而地图信息往往已经占用了位置和尺寸信息两个可视通道。因此,这就造成了可视通道资源的进一步短缺。本文通过提出一种实时的同时研究多元属性与空间位置信息关系的方法及有效的可视化交互方法,来保持空间上下文信息,同时利用图解说明了结合地理地形来分析多元信息的重要性。

    二、具体内容

     上图为本文可视化工具的总览图。其中左侧围地图,右侧为选取的各种属性。在多维度探索中, 作者使用了Small-Multiple的形式,将不同的维度属性绘制成小的折线图,并排摆放成矩阵的形式。其中X轴是variation轴,即根据用户交互产生的变化动态产生的,y轴为比较轴,可以是该观察属性的原始值、统计值等,同时在图中也提供了比较基线,可以设置为固定基线(某个整体平均值或则标准差)或者自定义一类值作为基线。

    1.交互对象

     交互方式的对象主要为三个方面:地理位置(SL)、地理范围(SE)及采样精度(SR)的变化,我们分别或连续地改变一个,并保持其他方面不变.

    对于每个交互对象,作者主要使用了离散和连续两种方式。举地理位置选取为例,连续交互即用画刷在地图上画出一条连续的线段。这时右侧会根据你画出的轨迹,统计这条线段上经过的固定范围内各个属性的情况。从而利用折线图的方式在右侧表示出来。而离散型则是在地图上选取几个点,统计这几个点在固定范围内不同数据的变化情况。并在右侧属性面板里绘制出条形统计图。

    2.属性签名

     属性签名表示沿变化轴的单个(或多个)属性中的更改。X轴是变化轴,与用户交互定义的地理方面(位置、范围或分辨率)相对应。Y轴表示计算出的统计数据的变化,并将动态计算的值与适当的基线进行比较。

    3.属性的归一化与重排序

    归一化:在本文中并没有提到归一化,但提到了Turkay等人动态创建属性签名的方法,且在后文中又提到了重排序,众说周知,要进行排序首先必须统一坐标的尺度,在结合Turkay等人的论文(虽然没有怎么看懂),猜测该方法在动态创建属性签名时便已将坐标归一化(或该方法本就是归一化的一种),在本文中提到该方法大致过程是这样的:将每个属性总结为与该区域相关的汇总统计数据,其中统计数据λ,例如平均μ或标准偏差σ等描述性统计数据,仅使用在变化轴上特定位置i处选择的数据点计算。然后,我们将这些“局部”计算结果λsi与基线值λbi进行比较,以计算位置i处的差异:Δi=λsi−λbi,类似于Turkay等人的差分图。所有属性的计算都是实时进行的,而Δi和λ是大小为p的向量——数据中属性的数量。在交互会话期间,用户选择(即递增i)位置或比例(范围或分辨率)。作为响应,对fly执行新的比较计算,并在每个属性签名中描述产生的差异。由于本人水平有限,只能看个大概,希望详细理解请阅读C. Turkay, P. Filzmoser, and H. Hauser. Brushing dimensions – a dual visual analysis model for high-dimensional data. IEEE TVCG, 17(12):2591–2599, dec. 2011.

    重排序:除了基本交互外,作者还提供了辅助的交互手段如重排序,文中提到的具体方法如下:首先在概览图的右侧的Small-Multiple图中选则一个希望得到其相似图形的图作为基图,然后用欧式距离法计算其他Small-Multiple图与该图的相似度,计算好之后,将基图放在左上角的最顶端,其下则是与其相似度最接近的,其后是第二相似的,依次降序排列,其原文叙述如下:

    参考:

    [1]Cagatay Turkay, Aidan Slingsby, Helwig Hauser, Jo Wood, Jason Dykes, Attribute Signatures: Dynamic Visual Summaries for Analyzing Multivariate Geographical Data. IEEE Trans. Vis. Comput. Graph. (InfoVis), 2014, Pages 2033-2042

    北大可视化博客:http://vis.pku.edu.cn/blog/attribute-signatures-dynamic-visual-summaries-for-analyzing-multivariate-geographical-data-%E7%94%A8%E4%BA%8E%E5%88%86%E6%9E%90%E5%A4%9A%E7%BB%B4%E5%BA%A6%E5%9C%B0%E7%90%86%E4%BF%A1%E6%81%AF/?tdsourcetag=s_pctim_aiomsg

    浙大可视化博客:http://www.cad.zju.edu.cn/home/vagblog/?p=2688&tdsourcetag=s_pctim_aiomsg

    展开全文
  • 在采集监控数据时,人们常常会在数据上附加若干标签,从多个不同的角度对数据加以描述。我们把这种附加了不同角度标签的数据称为多维度数据。多维度数据除了可以展示更多的数据信息,在故障诊断中也能...

    在采集监控数据时,人们常常会在数据上附加若干标签,从多个不同的角度对数据加以描述。我们把这种附加了不同角度标签的数据称为多维度数据。多维度数据除了可以展示更多的数据信息,在故障诊断中也能起到很大的作用。

    本文将重点介绍百度云智能运维团队在多维度数据分析方面的实战经验:

    • 多维度数据概念介绍

    • 基于多维度数据的故障诊断分析

    • 基于多维度数据的智能故障定位算法

    1.   多维度数据介绍

    假设有一个手机网站。

    网站的前端开发工程师希望了解用户使用的浏览器情况,则会在采集PV(页面浏览)数据时增加UA(User Agent)标签,这样就可以有针对性地优化前端代码。另一方面,产品经理希望了解用户在不同网络条件下的行为特征,从而优化网站的内容展示。因此他们在PV数据上增加了“网络”标签。

    在附加了这两个标签后,某时刻的PV数据就可以展开为表1所示的样子。表1假设UA标签有3个取值,分别是:

    “百度浏览器”

    “UC浏览器”

    “OPPO浏览器”。

    网络标签也有3个取值:

    “3G”

    “4G”

    “Wifi”。

    根据这两个标签的取值,PV数据就展开成了一个二维表的形态。表中的每一列对应的是UA标签的取值,每一行对应的是网络标签的取值。这就是我们把带标签的数据叫做多维度数据的原因。

    这时每个维度对应一个标签,每个维度的值对应了标签的取值。

    表1 PV数据二维表格(注:表中数据为假设数据)

    表1中共有16个单元格有PV数据。

    • 绿色单元格部分为两个维度的不同取值的交叉维度对应的PV。例如,第二行、二列的单元格表示来自“UA =百度浏览器”&“网络制式=3G”的PV为20000;

    • 黄色单元格部分为某一个维度取值的PV总和;第二行、五列的单元格表示某段时间内,来自“网络制式=3G”的PV为38000,该值为“UA=*”&“网络制式=3G”所有维度的PV之和;

    • 蓝色单元格部分表示所有维度的PV总和,即某段时间内的总PV为196000。

    可以想象,如果在上述PV数据中再增加一个标签,比如销售人员希望增加“省份”标签来作为销售方案优化的依据,数据就会被展开成一个立方体。有n个标签时,数据就变成n维空间中的一个超立方体。

    2.0   基于多维度数据的故障诊断分析

    发生故障时,通常会体现在多维度数据中。我们在表1的基础上加上各维度的PVLost(即流量损失,处理失败的请求个数),如表2所示。

    表2中每个单元格由两个数字组成,分别表示来自该维度的PV、PVLost。例如,第二行、二列的单元格{20000, 95}表示来自“UA=百度浏览器”&“网络制式=3G”的总请求PV流量为20000,其中95个PV因某种原因处理失败。

    表2 PV&PVLost数据二维表格(注:表中数据为假设数据)

    如果直接对表2进行人为的直观分析,很容易得到结论“此次故障的根因维度为‘UA = UC浏览器’”。

    原因如下:

    1. “UA = UC浏览器”的损失流量较多。服务总PVLost为19514,其中“UA = UC浏览器”的PVLost为19029,占总损失流量的97.51%;

    2. “UA = UC浏览器”在各网络制式的流量损失率(PVLost/PV)较接近,分别为30.30%(3030/10000)、30.27%(6357/21000)、30.13%(9642/32000);且与“UA = UC浏览器”维度的的损失率30.20%(19029/63000)相似。

    当维度只有两个、且维度的取值不多时,人工很容易定位到根因维度。但在实际工作中,并非如此。随着维度、维度取值增多,人工通过上述的方法进行定位的难度急剧增加。因此,需要通过机器学习的方式自动定位到根因维度。

    3.0   基于多维度数据的智能故障定位算法

    参考人工定位过程中的分析思路,我们提取了两个可以描述某维度是否为根因的特征:

    1. 贡献度即该维度PVLost与总PVLost的比例。

    2. 一致度即构成该维度的子维度的异常程度的相似度。子维度的异常程度的一致度可通过各子维度异常程度间的变异系数衡量,变异系数越小,则异常程度越一致。

    根据两个特征的描述可知,贡献程度越高、且子维度的异常相似度越高,则该维度为根因维度的可能性越大。

    因此,可以将数据的各维度展开,分别计算各维度的贡献度、一致度两个特征,根据维度的特征识别根因的问题即可转化为分类问题。其中,分类器参数可根据历史故障时各维度的标注数据,利用机器学习算法训练得到。

    说 明

    图1为我们收集的历史故障时不同维度的散点图,图中每一个点为一个维度(其中,蓝色点为非根因维度,红色点为根因维度);横、纵轴分别代表贡献度、一致度两个特征;根因维度主要集中在图中的右下角(其贡献度较高、变异系数较小),绿色直线为对该组标注数据训练得到的分类线。

    图1 根因维度识别散点图

    当维度的个数及其取值过多时,将维度进行展开计算上述两个特征时会带来较大的时间、空间开销。

    总  结

    本文主要介绍了多维度数据,以及通过多维度数据分析进行故障诊断的一种方法。

    首先介绍了多维度数据的特点,以及多维度数据的组织方式。结合一个PVLost增多的例子,分析了人工在利用多维度数据进行故障诊断的过程。参考人工定位过程,提出了基于多维度数据的故障诊断方法,该方法可适用到任意可加和的多维度数据定位的场景。

    若您有任何疑问或想进一步了解多维度数据分析相关问题,欢迎给我们评论、留言!

    作者简介

    运之云  百度云高级研发工程师

     

    从事百度云智能运维产品(Noah)大数据分析相关工作,重点关注时序数据分析、故障诊断及相关领域技术。

    更多相关文章

    百度自动化运维(上)百度自动化运维(下)|

    百度网络监控(上) | 百度网络监控(下) | 

    自动化运维三要素 | 智能运维 | 

    大规模分布式监控系统高可用实现 |

    外网访问质量保障(上) | 外网访问质量保障(下) |

    海量日志处理 | 故障自愈机器人 | 

    故障自愈机器人使用 | 单机房故障自愈 | 智能运维进阶 | 

    如何执行命令 | 执行命令为什么难 | 让数据自动生效 | 

    全过程自动化操作 监控报警

    对抗报警风暴(上) | 对抗报警风暴(下)

    异常检测:百度是这样做的

    对海量事件数据,我来告诉你怎么办!

    海量事件数据存储与计算——高可用建设

    监控数据从哪来?(入门篇)

    率课本中的二项分布 ,为何能在网络判障中发挥大作用?

    AIOps中的四大金刚都是谁?

    我们不一样!告诉你百度云如何做智能流量异常检测

    展开全文
  • 在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系一系列各种不同图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间相互联系。 知识图谱...

    知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
    知识图谱技术是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。而公安知识图谱,是将公安系统中各类数据进行汇总融合,提取成为人、事、地、物、组织等实体对象,也可以根据其中的属性联系、时空联系、语义联系、特征联系等,建立相互的关系,最终形成一张由人、事、地、物、组织构成的知识大网。从而,帮助一线民警们,更快更准确的找到案件关键点及各点之间的关联、破获案件。
    作为助力执法和情报分析领域的龙头企业,源中瑞的任务就是帮助用户分析任意格式和类型的数据,迅速获取有价值的线索和规律,帮助民警实现“一键分析”。以前,民警面对格式不统一、纷繁复杂的数据,往往会感到无从下手,破案难度高,办案效率低。从整理数据到分析数据,再到寻找关联关系,最后破案,一般需要几个月甚至几年的时间。如今通过源中瑞智慧公安系统,民警只要将数据导入,系统就可以自动根据其中的属性联系、时空联系、语义联系、特征联系等,建立相互的关系,最终形成一张由人、事、地、物、组织构成的知识大图。
    知识图谱是智能分析和智能交互的整合。通过云端智能分析和终端智能分析的结合,可以满足多场景、全业务、深挖掘的分析需求。源中瑞通过领先的技术能力、丰富的实战经验、强大的业务理解能力正在成为公安机关忠实的合作伙伴。

    展开全文
  • 摩根大通最新报告:31张图看懂美国股市和经济 来 过去一个月全球股市血雨腥风,美...我们选取了刚刚出炉摩根大通Guide To Market报告中31张图,并且做了简单讲解,帮助大家了解美国股市和经济现状! 截...
  • 钻取是是一个非常实用功能,在各种项目、应用中使用广泛,能够帮助数据分析用户清晰、直观地了解不同层级数据上下级关系,并聚焦于自己感兴趣内容。钻取可以改变当前多维分析中维层次,变换分析粒度一类...
  • 数据分析的同学们都遇到过这个问题:从多维度分析问题,提出对业务有意义建议。这个题目看起来很简单,可很多同学辛辛苦苦跑了一堆报表,结果只落得业务一堆抱怨:“你这一堆说明了啥!”“你重...
  • Filecoin是将云存储转变为算法市场去中心化存储网络,它是IPFS激励...数据来源:Filecoin网络公开数据、coinmarketcap,2021/3/31 表1:Filecoin项目参数表(截止2021/3/31) 有效算力是矿工接入订单后存储算..
  • 多维度共享数据机制,使得数据互通性和相关联助力卖家全面把握Shopee走向。Shopee数据分析高质选品,轻松引流,实现超卖爆单店铺,驱动Shopee店铺速增。 Shopee数据分析能做什么? 一:入驻 通过站点分析和行业分析...
  • 指标与维度是数据分析中最常用到的术语,它们是非常基础的,但是又很重要,经常有朋友没有搞清楚它们之间的关系,只有掌握理解了,我们的数据分析工作开展就就容易了。现在就来说说指标与维度的那些事。 1、指标 ...
  • 同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。 SOLAP产品是...
  • 在此时同样的,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。...
  • 资本市场对小红书平台内容流量重视,进一步推动了小红书火爆,通过大数据分析,纷纷进行精准投放推广,获取商业流量。 完美日记便是其中佼佼者,小红书新品牌第一股绝非虚言。以此为榜样,更多的国货新锐品牌...
  • | 1 多维度盈利性分析 一背景 二计量成果模型和方法 三数据应用 四工作要求 China Construction Bank.China Construction Bank. || 22 背景 1多维度盈利分析是财务部门职能转型必然要求 财务管理职能不断深化与...
  • 针对传统元数据检索过程中的效率低问题,提出了基于多维度的数据检索算法研究。首先,对元数据和可持续发展元数据结构进行分析。然后,分析信息检索的设计思路设计元数据库,提出元数据信息的资源组织,针对提出的...
  • ##引言 前文回顾:《数据智能时代来临:本质及技术体系要求》...数据智能就是以数据作为生产资料,通过结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从大量的数据中提炼、发掘、获取知识,...
  • 市场营销是企业命脉,肯定少不了营销数据分析和统计。跟着感觉走营销策略时代已经一去不回。 快速简单地区分渠道 ROI 营销行动,这似乎也已成为过眼云烟。 随着商业大数据重要性不断提升,通过对对客户、...
  • 多维度拆解是数据分析里最重要一种分析方法,通过不同维度去观察同一组数据,从而洞查数据异动背后原因。 多维度拆解适用场景 对单一指标构成或比例进行拆解分析 这种场景往往适用于像分栏目播放量和新...
  • 本文将人脸识别、人眼识别和语音识别技术应用到消费人群分析中,提出一款可多维度收集消费人群数据并进行智能产品推荐系统.区别于传统数据收集方法,该系统在收集显性评价数据的同时也在收集隐性评价数据,能...
  • 数据分析(2):多维度拆解法

    千次阅读 2020-02-18 08:53:58
    说到多维度拆解法,那我们首先要理解两个关键词:维度和拆解,下面咱举个栗子:这马上过年了,相信大部分朋友已经在回家路上了,有甚至在家葛优躺好几天了。回到家了七大姑八大姨最喜欢问你什么呀? 七大姑八...
  • 全球知名咨询公司麦肯锡曾说,数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。...数据包括网络日志、音频、视频、图片、地理位置信息等,类型的数据对数据的处理能力提出了
  • 精彩回顾如何实现H5可视化编辑器实时预览和真机扫码预览功能在线IDE开发入门之从零实现一个在线代码编辑器基于React+Koa实现一个h5页面可视化编辑器-DooringTS核心知识点...
  • App数据分析的五大维度

    千次阅读 2019-03-09 21:21:00
    第一个维度:对app产品用户规模及质量有个清楚的了解;  当下用户活跃度,新增用户指标,用户组成的指标,用户的存留率,每一位... app在线使用时长加上启动次数和活跃度可以多维度的展示用户对产品对参与程度;...
  • 百度、谷歌、今日头条、抖音等各...庞大的数据如果使用传统的手工输入方式统计,别说分析推广效果难(准确性、成交率)、优化方案难、就连收集浏览量、平均访问量、转化量都是推广人员的噩梦。在Excel表格中手工输入...
  • 数据智能就是以数据作为生产资料,通过结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从大量的数据中提炼、发掘、获取知识,为人们在基于数据制定决策时提供有效的智能支持,减少或者消除不...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,053
精华内容 1,221
关键字:

多维度的数据分析