精华内容
下载资源
问答
  • 文末领取【SQL数据分析常用语句】BennettC | 作者人人都是产品经理 | 来源做为一名在数据团队中修炼3年的年轻数据人,想和所有奋斗在互联网行业的追梦人分享一些自己的经验和思考。总结的同时,也希望能够帮助到正在...
    093c168efdfc3d8dd2ac944071b815d8.gif 文末领取【SQL数据分析常用语句】 BennettC | 作者 人人都是产品经理 | 来源
    做为一名在数据团队中修炼3年的年轻数据人,想和所有奋斗在互联网行业的追梦人分享一些自己的经验和思考。总结的同时,也希望能够帮助到正在数据人这条道路上披荆斩棘的您。 本篇不谈论那些枯燥无味,晦涩难懂的理论,毕竟这些东西讲起来难以消化。毕竟当你入行之后,接触到一些实际的数据项目时,再去有针对性的学习会事半功倍。 无论什么行业,对于刚入行,甚至是已经度过小白期的小伙伴们来说,如果想快速的提升自己与职位的匹配度,那么去分析一些大厂的JD,然后对症下药,理解其中的软技能要求,学习并掌握其中的硬技能,就是入行和提升自己的最好方法。下面我们通过分析两个大厂招聘JD,归纳一下想入门数据产品修炼的您,该掌握哪些心法吧。

    1549a7dff89251defb6e420d72476086.png

    图1 美团招聘JD

    44073d0401d5efa5b7261bc9d5f7a6ba.png

    图2 字节招聘JD 从这两份JD中,我们不难看出,资深数据产品经理的硬技能要求要比普通的数据产品经理要宽泛的多,但是这些随着一步步的修炼,都是可以习得的功夫,所以大可不必过于担心。本次主要介绍一下,数据产品修炼心法入门,欢迎高阶玩家批评指正。下面我们来总结归纳一下这两份JD的基本要求:
    • 业务理解——硬技能分析&拆解&抽象
    • 知识体系——硬技能需求分析&方案设计&SQL/HQL&常用数据库(oracle,mysql)&ETL&数据仓库(底层数据梳理,数据模型设计,指标体系搭建等)&BI
    • 抽象思维——软技能&硬技能JD1通用化,标准化,系统化的数据产品。JD2合理、灵活、可扩展的数据平台
    • 综合软技能沟通&协调&合理的资源利用(也是项目管理中的必备技能)。
    根据总结出的基本要求,进一步抽象加工,我们就得到了,数据产品修炼心法三要素。 话不多说,接一个任务练练手,试试这个心法的威力。

    1

    出色的【业务&数据】理解能力
    NPC:最近龙门客栈的外卖订单下降明显,小数,给我分析一哈子,是什么原因? 小数:好嘞,这个任务我接了 小数:先试试心法一 ,梳理下相关的业务流程和数据
    心法一:这个外卖订单业务是怎么进行的呢?
    大侠:下单——支付——催单——收餐——评价 客栈:接单——制作——通知小二——出餐——收到评价 小二:取餐——送餐——送达——收到评价
    心法一:什么情况会影响客栈的订单呢?
    大侠:你这客栈怎么老是下单失败,支付失败,接单还慢,送的还慢,搞的我要频繁催单,给你个差评,你要失去我了 客栈:你这小哥,配送怎么老是超时,差评还多,下次不用你了
    这里就匹配了JD中的业务理解能力得清晰的了解当前设计的业务的完整流程和流程中的细节。当然,这里只做简单的分析,实际的业务可能会设计多个业务模块或者跨系统,远比这要复杂的多。

    2

    完善的【产品&数据】知识体系
    小数: 大致知道这些个订单都是怎么来的了,其中可以用的数据也都了解差不多了,来试试心法二 心法二: 我要怎么告诉NPC是什么可能的原因影响了客栈的订单量呢?哦了,可以先告诉他是哪个环节出了问题,然后再告诉他具体出问题的地方在哪 心法二: 用我的SQL来瞅瞅是哪些指标变化导致订单量下滑的?
    先来列举一些指标看看:
    • 月下单总人数,月新增人数,复购人数
    • 月支付失败次数,月支付失败人数
    • 月催单次数,月催单人数
    • 月客栈差评数,月小二差评数……
    通过对比历史的订单情况可以发现,当客栈差评数,小二差评数和催单次数增多或者新增人数和复购人数下降时,都会影响该月的订单数。 这里就匹配了JD中的知识体系你得弄懂数据从哪来,要到哪里去,怎么去,数据指标模型怎么整合等等。当然也会用到常用的统计分析方法,例如相关性分析,回归分析,假设检验等。

    3

    严谨的【模块&指标】抽象思维
    小数:既然数据大致确认了,那么下面就是设计一下分析的模块并梳理一下指标的统计规则吧。 心法三:其实NPC就是想找到是什么因素导致的订单数下降,一定要突出重点。推广到各类商品的订单分析,都可以采用这种分析看板,只是核心指标与数据不同而已,或者添加一些定制化的分析模块。
    • 关键指标的变化(同比,环比)
    • 下钻到具体的用户或者小二,顺便看看是哪些用户的差评和催单,是否存在恶意评论,也看看是哪些小二每次评价都不好,考虑是否人员优化
    • 对于差评内容做分词处理,看下用户诉求,是分量少了,食材不新鲜还是不合口味等
    • 对于新增人数的下降,是因为新用户返现活动取消了,这次就展示下店铺活动运营的经费投入吧。后期得规划一下,针对用户活动做一个通用的活动效果评估(投入产出比)看板了
    这里就匹配了JD中的抽象思维作为一个数据产品经理,处理要考虑实现需求之外,还要考虑它的通用性,标准性,对于相同业务模式的分析内容能复用的就复用,减少开发成本,如果是对于多条业务线都使用的数据指标,其数据口径一定要提前确认定稿得到大家的一致认可后再开发。 等项目落地后,一定要配套输出对应的数据口径规范说明文档,除了应对后续的统计变更或者业务变更导致的需求变更之外,更重要的就是要让使用者明确每一个指标的定义标准,用的时候才不会出现模棱两可或者同样的指标不同的部门统计出来的数据却有偏差。

    4

    总 结 上面只是临时构思的一个小例子,不具有真实性。只是希望能够简单直白的描述一下入门数据产品修炼的心法三要素,这些也是一个数据产品经理落地一个简单的数据产品必不可少的环节。 关于数据产品的修炼,这些只是最基础的冰山一角,但是,修炼最讲究的就是心法,心法对了,照着这个心法无限的往外延伸,就能不断的提升你的功力。这里我没有去探讨项目中的各种利弊权衡和资源协调问题,没有去探讨项目中的各种事件节点和沟通成本问题,也没有探讨数据仓库,ETL,数据中台等各种硬技能到底是什么。 因为我认为只要掌握了心法,然后每一个心法下都是庞大知识体系的树根,虽然错综复杂,但是最终都是向着阳光,长成参天大树。期待后续和大家一起分享交流。 END - 本文为转载分享&推荐阅读,若侵权请联系后台删除 ca73fa581e58698d1456319066f754de.gif db360e63c6f47085df53544cceee2c9e.gif
    展开全文
  • 作为数据产品经理,必须要掌握一些必备的思维方式,例如:数据思维、产品思维、用户思维、工程思维等,下面我们先以数据思维为例,来看一下在数据产品经理工作过程中,经常要用到的数据思维。首先,来看一下数据、...

    作为数据产品经理,必须要掌握一些必备的思维方式,例如:数据思维、产品思维、用户思维、工程思维等,下面我们先以数据思维为例,来看一下在数据产品经理工作过程中,经常要用到的数据思维。

    92a721fcfacb4cca9cfaf28f28ea63a3.png

    首先,来看一下数据、信息和知识这三个概念。

    数据就是数值,是一种客观存在,是通过观察、实验和计算得出的结果,并 随着社会的发展而不断扩大和变化。特别是在现在的移动互联网时代,数据不再 是仅仅限于字面上的数字,图片和视频都是数据,我们开车或者骑行中的轨迹也是数据,甚至身体的健康状态信息等也都属于数据的范畴。

    信息是对这个世界中人或者事的描述,泛指人类社会传播的一切内容,它比数据更加抽象。

    1948 年,数学家香农在题为《通信的数学理论》的论文中指出:“ 信息是用来消除随机不定性的东西 ”。

    信息是被组织起来的数据,是为了特定 的目的,对数据进行有关联的组织和处理,赋予数据以具体意义,从而可以用来 回答 5W2H 中的 Who、What、Where、When的问题。

    以 2018 年 10 月 23 日通车的港珠澳大桥为例:它是建立在中国境内, 连接香港、珠海和澳门的大桥,桥隧全长为 55 千米,其中主桥为 29.6 千米、香 港口岸至珠澳口岸为 41.6 千米,这便是由数据表述的有关港珠澳大桥的信息。

    知识是通过数据和信息处理以后,被验证过的,而且是绝对正确的。可见, 知识是数据和信息之上的,更加高级和抽象的概念,是基于信息之间的联系, 总结出来的规律和方法论。

    知识具有系统性、规律性和可预测性,主要用于回答Why和 How的问题,而得到的知识能够使我们更加清晰地 了解世界和生活,还能够不断改变我们周围的世界,这一切所有的基础就是数据。 例如:北京夏季高温多雨,8 月温度为 20~36°C,平均降水天数为 12 天,这是根据多年资料总结出来的北京气候的规律。

    这个知识有三个作用:

    回答问题,这个知识解释了今年 8 月北京为什么下了那么多雨。

    预测,明年 8 月,北京很可 能温度还为 20~36°C,平均降水天数还为 12 天。3总结经验。在 8 月来北京旅 游穿短袖衣服即可,体弱者要带长袖衣服,最好带伞。

    下图解释了数据、信息和知识的层次关系和重要性,我们做任何决策的知 识都是要建立在信息的基础上的,仅仅凭直觉和意识做的一些决策,如果没有数据支撑,那么是没有办法经过积累沉淀下来形成知识的,有些企业只是收集数据, 却不知道怎么用、应该用在哪里。

    数据如果静静地放在那里是没有任何价值的,有效的数据驱动可以将企业里的数据充分地转化成信息,并且形成结构化的知识 体系,高效地指导企业各个业务快速发展。

    fba62a1460e70c2eb61b15eee03b9e7e.png

    数据、信息和知识的层次关系

    另外,当对要解决的问题不能寻找到一个简单、准确的解决方法时,我们可以通过历史数据,寻找合适的算法,构建出模拟真实数据的模型,从而预测真实场景下的数据,寻求进一步的解决方案,这就是数据驱动方法的意义所在。

    虽然这些模型都会有一定的误差,但是在合理误差范围内的结果都可以进一步指导企业做出决策和对业务进行指导。随着大数据时代的发展和硬件计算资源的进步,我们通过数据生成知识的速度会越来越快、效率会越来越高,在这个高速发展的时代,数据驱动会越来越高效地帮助企业发展,达到用数据汇集信息、通过信息挖掘知识、用数据驱动业务的目的。

    数据思维就是所有做出的判断和结论都基于数据,对数据敏感,而且善于应用数据。其实也比较简单,就是对任何事情、任何看法要有数据作为依据,即用数据说话,而不凭借自己的主观判断。我们来看一个简单的实例,所有喜欢 NBA的朋友都知道詹姆斯和库里,那么如果问詹姆斯和库里在中国谁更“火”呢?

    要回答这个问题,首先要明确如何定义“火”,如果说一个 NBA 球员“火”, 那么到底指的是什么?是粉丝数多?还是比赛被观看的次数多?还是球衣的销量大?

    这里我们假定根据粉丝数定义吧,粉丝数多就说明关注的人多,可以用来作为验证一个 NBA 球员有多“火”的标准!在明确了要衡量的指标之后,我们就可以通过数据解决这个问题了。如果你只是和朋友茶余饭后聊天,那么你肯定会根据身边的朋友或者自己的认知想当然地回答这个问题,例如:

    你:我觉得詹姆斯更“火”,因为前段时间我看到很多人都在朋友圈发他签约到湖人的信息,他的粉丝一定很多。

    而作为库里的球迷,你的朋友显得很不买账,他提出反驳意见。

    朋友:前段时间库里率领勇士夺得了总冠军,应该更“火”,我觉得他打球华丽,而且最近还有中国行,也有很多人买他的球衣,难道不是他更“火”吗?

    然后双方争执不下,如果你是一个数据产品经理,你想解决这个问题,那么你要怎么办?很简单,用数据说话,图 2-21 是从 2018 年 2 月 1 日到 2018 年 11 月 6 日来自百度搜索指数的数据,展现了 PC 端 + 移动端用户的搜索指数。

    81fd541a497c582ca12f9598627ef526.png

    詹姆斯和库里的百度搜索指数曲线

    从上图中的数据来看,詹姆斯在 5-6 月的百度搜索指数大幅领先于库里,即便处于总决赛时期,从搜索指数来看,詹姆斯也更受关注,然后你拿着百度搜 索指数的数据成功地说服了朋友,同时你也发现,原来明星的话题性这么强,能够因为某个事件引爆巨大的流量,这就是数据思维在实际生活中的一种体现。

    当然,这个例子还有一些不完善的地方,例如百度搜索指数是否准确,单独的搜索情况覆盖的人数是否足够多,还有就是单独比较这一段时间会不会偶然性太大等。由此我们发现,对于一个简单的问题“詹姆斯和库里到底谁更‘火’” 来说,其实背后需要考量的因素有很多,同时也发现数据对我们生活的帮助是很 大的,数据越多、越全面将越有助于我们更清晰地认识一件事情。

    那么,如何培养自己的数据思维呢?

    首先,要时常关注数据,对数据敏感。这一点其实我们每天都在做,只不过很多人关注的大部分数据都可能是娱乐性质的罢了,还有一些可能由新闻报道得到。例如:很多人都通过微博或者今日头条等新闻资讯客户端获取数据。

    比如:小米和美团点评谁又上市了,谁的股票涨了,谁的市值高;哪些明星又发生了什么事,谁偷税漏税了,被罚了多少钱,谁又参演电影了,哪部电影的票房高等。这些其实都是数据,只不过你关注的点大多数是娱乐性质偏多一些的。

    而数据产品经理更应该关注大数据行业的一些数据,当然你有时间的话也可以去关注一些自己感兴趣的模块,养成查找数据的能力,可以关注更多领域的更多数据,获取更多领域的知识。

    这就需要我们提升自己查找数据的能力,例如:通过百度搜索指数、艾瑞数据、TalkingData、阿里数据、微信搜索指数等,这些网站都有针对一 些领域、关键字的数据分析和统计,多查一查、看一看,对于了解感兴趣的事物都是很有帮助的。

    其次,多思考数据背后的东西,把数据转化成知识,让数据产生真正的价值。 在很多时候,数据可能就是一个冰冷的数字,或者一些简单的折线图等图表,但是经过我们的分析和思考,这些冷冰冰的数字就会转化成挖掘宝藏的钥匙,帮助我们做一些决策分析,让我们更客观地了解事物。

    我们来看一看拼多多背后的数据:拼多多上市让很多人都意想不到,甚至有一些人在它上市后才知道拼多多的名字,一个 2015 年 9 月才成立的公司,仅仅运营 3 年便成功上市,活跃用户数突破了 3 亿个。外界都很好奇为什么拼多多的成长速度这么快,觉得拼多多上的有些商品质量一般,只是通过拼团的方式销售,商品价格比较低。

    但是,如果我们分析拼多多背后的数据就会发现,拼多多的成功看似不可思议,其实是理所当然的!这些数据背后反映了最真实的用户。

    从用户收入来看,大部分用户的人均收入不足 3000 元,根据国家统计局 2017 年发布的《中华人民共和国 2017 年国民经济和社会发展统计公报》数据显示:2017 年全国人均全年可支配收入为 2.6 万元,这样一算人均月可支配收入仅为 2000 多元,我们或许没有意识到这个问题,也没有注意到这个数据,而拼多多的主流用户就是这些三四五线城市的用户,以及大量的乡镇和农村用户。

    再从用户消费的品类来看,极光大数据显示:拼多多的用户中约 65% 来自 三四五线城市,这些用户的收入都普遍偏低。拼多多平台上销售的货物价格低廉, 刚好可以满足这些用户的需求。这些都是生活在“北上广”的人所体会不到的, 而在一些小城市仍然有些人经常会发砍价的链接。通过数据我们发现,拼多多能够积累到 3 亿个用户绝非偶然。

    最后,要多与人沟通,不要偏执,在相信数据之前,要有勇气否定自己的一 些经验和想法,做到时常关注数据,多思考数据背后的东西。现在的互联网时代衍生出了很多新的玩法和新的事物,已经远远超出了我们过去的认知,不要一味地坚持自己的想法而放弃倾听其他人的观点。

    人在很多时候是很有意思的,特别是越在没有人认同你的观点的时候,就越希望说服别人认同你。在做数据产品经理工作的时候,我们要注意避免这个问题,多沟通而不要固执己见,并要注意沟通的方式,多获取别人的信息和数据。

    很多时候被别人说服很简单,但是完全接受别人的想法,并说服自己接受是一件困难的事情。放弃偏执,通过交流,获取别人的数据和知识,结合自己的认识,做进一步的决策,这才是一个数据产品经理应该有的态度。

    上面就是我对数据产品经理必备思维方式——数据思维的理解,想了解更多,向你推荐《数据产品经理修炼手册-从零基础到大数据产品实践》这本。

    本文由 @ 梁旭鹏 原创发布于人人都是产品经理。未经许可,禁止转载

    题图来自Unsplash,基于CC0协议

    展开全文
  • 前两篇笔者分别为大家介绍了AI产品经理需要了解的概率论通识、线性代数通识、微积分通识,本篇文章中,笔者将继续为你介绍AI产品经理需要了解的数据标注,供大家一参考学习。前几天参加京东的AI技术沙龙,在提问环节...

    前两篇笔者分别为大家介绍了AI产品经理需要了解的概率论通识、线性代数通识、微积分通识,本篇文章中,笔者将继续为你介绍AI产品经理需要了解的数据标注,供大家一参考学习。

    15203b15b2116f40ad6b75e7d2916622.png

    前几天参加京东的AI技术沙龙,在提问环节,有个小伙说:

    “我是做销售的,刚才您讲的我都没听懂,我就知道,现在AI是风口,只要做AI相关的就能挣钱,您能说几个现在我们这类人能做到吗?能挣钱就行!”

    台上技术出身的老师自然一时语塞。小伙说的没错,百团大战的时候确实一批刷单公司赚得盆满钵满。但是这些投机取巧注定不能长远。

    让更多人卷进这次AI浪潮的可能就是数据标注了,All in AI的百度拥有大量的标注业务,大部分河南标注工厂用的是百度的标注工具,干的是百度的活。开始的时候标注的利润空间可以达到60%—70%。有些企业盲目扩张,一下子招了几百人;但是陆奇离开后,百度需求减少。准确率又普遍提高至95%-96%,活难干了。这些工厂只会百度的标注工具,很难接别家的业务,因此死了一批。

    现在来看标注行业是一个苦行业,“如果你和谁有仇,就劝他干标注吧。”这是标注圈有名的段子。干标注就像将水倒进一个水桶里,每拉一个框就是添一碗水。目前,谁也不知道还能添多久,只有水溢出来时,才知道。

    数据是AI公司的必需品。数据对于AI模型的重要性尤为重要,AI建模没有门槛,数据才是门槛。现阶段的人工智能是简单的认知智能。分类器的构造是个数学问题,就是由数据堆起来的。或者说深度学习本质上是个数学问题,是由大量的样本空间数据反向构造分类器的系数空间的过程。

    数据标注模型

    数据标注业务的配置是一个复杂的数学模型。比如,有些任务需要串并联的工作流,并联的工作流是多人协同的工作。串联的工作流是后一个结果是基于前一个结果进行处理的,串并联的工作流需要平台来实现业务工作流的配置。比如一些NLP型的文本标注作业,需要多个人来标,最后N选一或者投票。串并联配置涉及到底层数据流的分发等。或者说更像是一个流水线作业流程。

    d30b55a8cd1e5d96667d07c8d046ef6a.png

    不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。

    数据的质量直接会影响到模型的质量,因此数据标注流程设计和监督纠错就显得异常重要。

    一般来说,数据标注部分可以有三个角色:

    1. 数据标注员:标注员负责标记数据。(文本、图像、视频)
    2. 数据审核员:审核员负责审核被标记数据的质量。(抽检)
    3. 标注管理员:管理人员、发放任务、跟进流程。

    只有在数据被审核员审核通过后,这批数据才能入库使用。

    一般众包数据标记流程

    1. 任务分配:一般数据分配由后台自动分发,根据用户选择标注类型每次分发几条内容,标注完成后再次分发。
    2. 复核入库:一般一条任务会分配给大于三个人的基数人员完成,根据少数服从多数原则确定该条数据的最终标签。
    3. 质量验收:一般会根据用户标注总数量和入库数量计算该用户的标注质量,和计算有效标注数量,质量高的和质量低的薪酬计算方法会有差别,以此来淘汰不能完成高质量标注的人员。

    数据标注类型

    图像标注-线标注

    根据需求标注检测对象相对应的线型位置,例如:车道线。

    54b6a2d558e1052ea1312ff9c09d17e8.png

    图像标注-边框标注

    标注检测对象相对应的区域,例如:汽车/行人等各种物体。

    81bf58e5520dcadae4cb62c11adb80d2.png

    图像标注-3D边框标注

    将图像中待检测物体以立体形式标注,例如汽车检测。

    81bf58e5520dcadae4cb62c11adb80d2.png

    图像标注-语义分隔

    根据检测区域不同,将图像标注为不同的像素,例如来自汽车拍摄的图像。

    62db9840cd53d4f886482df2662491b8.png

    图像标注-多边形标注

    根据需求标注检测对象的形状,例如:标注图像中的汽车轮廓(示例图)或标记污损边界。

    a8473f6cb4041eb4827c5d554cee5d32.png

    图像标注-点标注

    根据需求标注检测对象参考点的像素坐标,或者图像中的关键点标记,如人脸。

    388be395a2316935eb1b32b0439810fa.png

    图像标注-3D点云标注

    在3D空间中,标注点云数据中指定的检测对象,如汽车、行车道等。

    438b648a21ef795ee1b55b17328d0dd2.png

    视频标注-跟踪标注

    在视频或者连续的图像中跟踪标注检测对象,形成有ID关联的运动轨迹。

    57d65d4240c06aa6110307eb7792c878.gif

    文本标注-中英文语音转写与校对

    英文语音转中文文本,或中文文本转英文语音。

    文本标注

    实体命名,标注文本中的实体。

    cf70a05a02b3188b8250f6b8505cb8c8.gif

    语音标注-客服语音标注

    外呼机器人进行外呼记录语音标注呼叫成功或者失败,从而训练话术。

    标注流程

    1. 需求确认:对标注任务需求确认,标注数据集准备完成,规范标注需求,指定标注模型。
    2. 人员筛选:确定标注人员及人员角色
    3. 人员培训:针对不同角色培训标注规范和标注标准
    4. 开始试标:先标注少量数据,试用标注数据,调整标注流程,使得效率最优。
    5. 正式标注:完成整体标注任务。导出数据。

    总结

    快速、高效的进行数据标注,是机器学习和深度学习的基础,现在一些标注工具通过深度学习模型和主动学习技术,通过NLP模型来提高标注效率,集数据标注、数据管理、模型训练和模型服务于一体,使数据标注更加轻松、更高效。离AI最近的重复复杂的工作,是首先会被机器取代的。

    #相关阅读#

    《AI产品经理需要了解的概率论通识:4个概念3个问题》

    《AI产品经理需要了解的线性代数通识》

    《AI产品经理需要了解的微积分通识》

    作者:老张,宜信集团保险事业部智能保险产品负责人,运营军师联盟创始人之一,《运营实战手册》作者之一。

    本文由 @老张 原创发布于人人都是产品经理。未经许可,禁止转载。

    题图来自Unsplash,基于 CC0 协议。

    展开全文
  • 了解大数据平台的基础架构有助于我们清楚数据是怎么流转与处理的,在每一层的结构中数据是以什么形式存储的,当我们听到工程师们谈论到这些内容时,不至于一无所知。本文内容偏基础,适合像作为入门了解。文不如表,...

    98149e9d40628408e221a7353b3f0efd.png

    了解大数据平台的基础架构有助于我们清楚数据是怎么流转与处理的,在每一层的结构中数据是以什么形式存储的,当我们听到工程师们谈论到这些内容时,不至于一无所知。

    本文内容偏基础,适合像作为入门了解。

    文不如表,表不如图,先上一张大数据平台架构图:

    96672c663a791e9546b0cbd7ba899fc8.png
    大数据平台架构图

    按数据流向将大数据平台分为3层。

    第1层-原始数据层

    在这一层中完成的是数据从业务数据系统传输到DOS操作型数据层的过程。业务数据通常是来源于各个业务系统(比如crm系统、订单系统等)、用户操作日志或其他第三方数据系统,这一过程的主要目的是将来自各方的数据在DOS操作型数据库中实现数据集中。集中后的数据可以缓解业务系统的查询压力,同时方便地支持多维度分析等查询功能。

    这个过程中,我们要关注的是数据抽取的接口数据量的大小抽取方式。

    DOS操作型数据层的数据特点:

    • 通常是实时或分钟级从业务数据层获取数据
    • 存储的是当前的、不断变化的数据,历史数据通常保存3-6个月

    第2层-数据仓库层

    数据仓库不是一个独立的个体,它是大数据平台的一部分,是一个集成化的、面向主题的数据存储集合,它既不生产数据,也不消费数据,它存储的通常是历史的、不再变化的数据。

    数据仓库的特点:

    1)面向主题

    数据仓库的主要功能就是向数据应用层提供信息以作出决策,所以数据仓库通过一个个主题域将多个业务系统的数据加载到一起,来支持对各个主题的分析。

    2)集成性

    数据仓库中的数据来源于众多不同数据源。数据仓库系统将多处的数据源通过一定的规则进行etl处理,再聚合集成到数据仓库。

    3)稳定性

    对数据仓库中的数据一般仅执行查询操作,很少会有删除和更新。这些数据是为企业数据分析而建立,所以数据被加载后通常会被长期保留。

    4)数据的切片存储

    数据仓库的数据存储是加了时间戳的,相当于是把数据按照快照的方式存了n个版本,从而避免业务数据被不断覆盖,使得历史时间的数据可追溯、分析。

    数据的分层存储:

    数据仓库的数据存储是分层级的,这个架构一方面跟数据拉取方式有关,一方面也是为了对数据进行层级的抽象处理。数据仓库主要分为基础层、主题层、数据集市层三层。

    1)基础层

    ODS层的数据经过简单的etl处理进入基础层,通过建模的方式,经业务模型、领域模型、逻辑模型、物理模型一系列处理,来实现对数据的轻度汇总,产出轻度汇总明细表、维度表等。

    这个过程中,对于数据的etl处理,会涉及到一些数据错误、遗漏、不规范、不统一等问题,产品经理需要和研发工程师做好沟通,提供数据清洗逻辑

    2)主题层

    主题层的存储的是高度综合的数据,是由ODS层和基础层的数据按照一定的维度和业务逻辑聚合而来,仍然覆盖了所有的业务数据,只是它的数据存储形式是面向主题的,比如订单主题、商品主题、物流主题等,目的是可以满足用户分析某个主题的需求。

    这一层的搭建规则要依赖于公司业务需求,所以产品经理需要对业务有深入的理解。

    3)数据集市层

    数据集市可以理解为是一种“小型数据仓库”,一般面向部门、面向主题或特定应用,它最主要作用是将主题数据组合成数据分析模型,数据的结构通常是由事实表和维度表构成的星型结构或雪花结构。

    星型模型是面向主题的常用模式,主要由一个事实表及多个维表构成,不存在二级维表。

    8da149440b8c692cd5a22be4685d15e1.png

    雪花模型是在星型模型基础上将维度表再次扩展,好处是耦合性低,冗余小。缺点是需要跨多表查询时性能低。

    5511cc936d23804fc0e28997dfe3ff9f.png

    第3层-数据应用层

    数据仓库的数据通常服务于数据可视化报表、数据分析(包含数据挖掘)、即席查询。

    数据报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,使数据更直观、易理解。

    数据分析是数据仓库的主要应用,用户可以提取到隐藏的、重要的信息,进而开展描述性、预测性、指导性的数据分析,为企业提供更大的商业价值。

    即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成返回响应的结果,例如返回用户自定义的统计报表。这需要数据库内部实时自动优化,所以即席查询也是评估数据仓库的一个重要指标。在一个数据仓库系统中,即席查询使用的越多,对数据仓库的要求就越高。

    总结

    针对大数据平台,作为产品经理,我们首先应该做到:

    1)了解大数据平台的架构、数据的流转与处理,方便与研发沟通交流

    2)在数据清洗时,能够提供保证数据质量的数据清洗规范

    3)对业务要有深刻的理解,能更好地了解或参与主题构建、数据分析模型构建

    参考资料

    1.《数据产品经理修炼手册》

    2.数据仓库学习笔记:修炼数据产品经理

    http://www.woshipm.com/data-analysis/950578.html

    3.数据仓库的基本架构

    http://www.woshipm.com/pd/676.html

    4.大数据时代:数据仓库搭建之路

    http://www.woshipm.com/data-analysis/1932441.html

    展开全文
  • 因为产品经理对于用户需求的抽丝剥茧、对市场的快速响应和洞察,对数据的灵活运用,是每个行业的核心技能。尤其在5G、大数据、万物互联的时代到来之后。随着科技的发展,时代将会诞生无数的产品经理。 现在的产品...
  • 数据产品经理修炼手册:从零基础到大数据产品实践 IF you can't measure it, you can't improve it。-->意思是:如果你无法衡量,你就无法增长。 数据产品:是可以发挥数据价值去辅助用户做更优决策的一种产品...
  • 从基础到思维,从工具到实践,从理论到案例,让小白清晰了解数据产品经理职责与素质。
  • 产品经理的职业生涯分为4个阶段:第一阶段是产品助理,主要负责竞品分析和简单原型绘制;第二阶段是中级产品经理,主要负责一个简单产品的从生到死;第三阶段是高级产品经理,主要负责产品或者产品线的从生到死;第...
  • 想快速成为数据产品经理,提升数据化运营思维的指导手册
  • 谈谈产品总体  混合各种学科  可以说是个人和各种方面的总结吧,要想去分析或者自己着手一个产品,至少在经济,管理和心理方面有所涉猎,因为这不只是一个关于研究产品制作的方面,你要学会怎么处理内部关系,...
  • 从2010年开始,产品经理逐渐成为互联网公司...近期,随着《数据产品经理修炼手册》一书的上市,书中对数据产品经理小王日常的描述引起了广大读者的热议。 小王作为一名互联网公司的数据产品经理,在书中他的一天...
  • 近两年来AI产业已然成为新的焦点和风口,各互联网巨头都在布局人工智能,不少互联网产品经理也开始考虑转型AI产品经理,本文作者也同样在转型中。本篇文章是通过一段时间的学习归纳总结整理而成,力图通过这篇文章给...
  • 作者:Anne,起点学院课程产品经理题图来自 Pixabay,基于 CC0 协议全文共 4254字 2 图,阅读需要 9 分钟—————— BEGIN ——————近年来,随着...这也让互联网职业出现了新的职业机遇——数据产品经理的...
  • 领导修炼手册

    2016-09-18 12:40:46
    项目leader: 1、对于项目的估算时间成本:1/3计划,1/6编码,1/4软件... @12情商修炼,强身健体,终生学习 ​思想决定命运,体育锻炼修身养性 ​ 创业者需要考虑的几项内容-》燃点电影的观后感
  • (阿里巴巴/58/网/美团对于id-mapping画像体系建设) 主要内容:几个大厂的id-mapping运营模式和实践 作者:草帽小子;公众号:一个数据人的自留地,wx...人人都是产品经理专栏作家,《数据产品经理修炼手册》作者。 3.
  • AI时代PM修炼手册

    2019-12-04 14:08:07
    人工智能产品经理:AI时代PM修炼手册 • 2.1.2 三类公司对产品经理能力的要求 • B类产品的特殊性决定了在产品管理过程中要考虑产品的 CAC( Acquisition Cost,用户获取成本)、产品的 LTV( Time Value,用户的...
  • 在读费杰的这本书之前,我也读了很多关于互联网产品经理...但由于各种原因(好吧,我承认,其实最主要的是我懒惰,呵呵)都没有写,这次用了两周的时间读完费费的《产品经理修炼之道》后,突然想写点东西,在加强自己对本
  • 很多朋友可能对一个一般的项目经理是否需要了解这些知识持怀疑态度,因为似乎一个项目经理的工作中和这些知识打交道的机会并不是很多,其实要是依照我 的观点,不但项目经理,任何人都应该学习一点经济学常识和一点...
  • 点击上方“程序人生”,选择“置顶公众号”第一时间关注程序猿(媛)身边的故事顺应AI时代大潮,为产品经理提供进阶、修炼的良机让你成为一流的人工智能产品经理随着人工智能热潮的...
  • 【产品】产品经理PM相关书籍荐读

    千次阅读 多人点赞 2018-09-06 12:30:53
    产品经理修炼之道》 《神一样的产品经理》 《产品经理——从菜鸟到大师》 《从门外汉到BAT产品经理有多远》 《杰出产品经理》 《YES!产品经理(工具篇) 》 《产品经理面试攻略》 《产品经理那些事儿》 《产品经理...
  • 产品经理修炼之道》 《神一样的产品经理》 《产品经理——从菜鸟到大师》 《从门外汉到BAT产品经理有多远》 《杰出产品经理》 《YES!产品经理(工具篇) 》 《产品经理面试攻略》 《产品经理那些事儿》 ...
  • 很早期的时候,互联网人口激增带来的巨大流量红利,那时候企业最核心竞争力是什么? 就是如何收割流量和如何变现流量,追逐规模效应的模式创新,这个时期是“一快遮百丑”。...在这样的大背景下,对于产品经理来说
  • 对产品的定义随着时光的变迁往往有着不同的内涵,同样的,对产品经理的理解也可能有着不同的认知。 关于产品经理的出现 在20多年前笔者刚刚参加工作的时候,并没有所谓“产品经理”这样一个岗位。那时候,一个...
  • 恰逢世界读书日,又有哪些好书推荐?...本书从六大视角出发解读心理学,分析了心理学中大量的关键问题,其中不少关键问题的分析有助于我们更好地了解程序员、产品经理、用户和产品本身。 书籍介绍: 本书是作...
  • U-Time巡回开启,仅3站(北京/深圳/广州),名额有限!-速戳底部“阅读原文”或者扫二维码抢位-作者:梁旭鹏,人人都是产品经理专栏作家,《数据产品经理修炼手册》作者关键词:智能拉新、...
  • CEO修炼手册:识人,识人,还是识人 识别人才是一辈子要修炼的功课,除了多和不同的人聊天汲取经验以外,对过往的招聘进行反思,是企业成长过程中CEO以及高管团队的必修课。我在面试团队高管的时候,最常问的问题...
  • 增加(插入数据) 删除数据 修改数据 查询数据 - 为什么使用数据库软件? 之前在讲webserver时通过IO技术已经操作过数据,其实这部分代码相当于自己写了一个数据库软件,只不过功能较少执行效率较低,将来工作中不管开发...
  • 产品经理书单

    2018-07-30 23:10:55
    《人人都是产品经理》:阿里...《产品经理修炼之道》 《经.理》 《启示录》 一、产品市场 《引爆点》——产品市场与运营推广 《长尾理论》——产品市场 《魔鬼经济学》——产品市场 《影响力》——产品市场 等

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 684
精华内容 273
关键字:

数据产品经理修炼手册