精华内容
下载资源
问答
  • 2019-04-04 18:35:12

    解决问题的Leader不会接受一个有缺陷的方案。

    一般的领导会通过下面的方式来控制质量:

    项目进展中测试质量

    重新检查规范,并不等于在质量上让步。只有真正按照要求(规范)完成任务时,理解问题才有意义。结果比任何过程都重要。

    在设计解决方案时,要设计工具和程序来衡量质量

    要按时按质完成任务,靠的不是运气,也不是压榨。

     

    衡量实施进度,比照计划,随时准备改变解决方案

    项目是随着进度而逐渐清晰的。所以解决方案也要随之改变。

    唯一不变的就是变。

    跳出项目来看待项目,更新自己的想法,评估项目生存能力

    根据统计,软件行业中,一半的项目不会交付。所以会失败的项目一定要早点结束。

    在实践想法之前,一定要邀请客户一起体验

    永远记得,客户至上。不要问为什么,如果要问为什么,那是因为钱在他们口袋。

    如果想法是错的,要重振士气

    人是会犯错的。但是任何事情都有两面性。在高明的领导看来,失败就是摆脱错误想法的束缚,是一种成长。就像爱迪生发明电灯一样,实验失败999次,还能兴高采烈的进行第1000次实验。

    更多相关内容
  • 质量管理-----解决问题A3报告写法

    千次阅读 2018-03-13 09:10:53
    A3报告可以锻炼企业基础竞争力,同时还比较系统的分享了写A3报告的重要的一些基础能力(如精炼化表达、可视化、三现主义、让思维缜密的5W2H、更多可以浏览本公众号的历史文章),还有A3报告的三种类型:问题解决型、...

      A3报告可以锻炼企业基础竞争力,同时还比较系统的分享了写A3报告的重要的一些基础能力(如精炼化表达、可视化、三现主义、让思维缜密的5W2H、更多可以浏览本公众号的历史文章),还有A3报告的三种类型:问题解决型、提案型和状态型;那么接下来我将重点结合A3报告的基础能力和A3报告的三种类型来具体分别说明三个类型的A3报告如何写,今天首先分享的是用得最多的问题解决型A3报告。

    一、什么是问题解决型报告?

    在自己职权范围内可以进行改善的课题就是问题解决型课题。

    二、问题解决型报告的故事线及写法

    问题解决型A3报告写法

    1、主题:客观的描述报告要解决的课题是什么,让读者(指阅读、审核报告者)知道整个报告要讲述的主要内容。通常的写法是“方向”+“对象”,如:“降低”+“机械加工车间的废品率”;在写主题时要求聚焦课题,不要写对策,如“对作业员进行培训来降低不良率”这是错误的写法,正确的写法是“降低应付账款的错误率”;这里需要说明为什么不需要写出对策呢?因为在主题写出对策容易出现先入为主的错误,即我们在解决问题的开始就主观的做出了对策,这不利于我们找到真正的原因,彻底的解决问题。

    2、背景:说明为什么要解决这个课题。通常的写法是:描述课题的来源,描述课题与他人、企业或顾客的关系,简单来说就是这个课题不解决会对顾客或企业带来什么不好的影响;在写背景时需要确定报告的读者是谁、解释清楚必要性、衬托出主题及引出现场。

    3、现状调查:承接背景的内容,通过三现主义找到解决课题的“问题点”。在写法上必须基于客观的事实进行描述,对现场情况做可视化的整理;在整理现状时要求:概括描述该流程或系统的当前状态、突出介绍当前情况中的关键因素、不能带自己的主观看法或既有“答案”。

    4、目标:明确要将课题改善到的程度,用于评价该课题的改善是否成功。在写法上要注意明确目标制定的依据,同时对当前水准和未来目标做可视化的整理;在制定目标时必须要量化,同时所设定的目标要有竞争力,可以是参照行业水平或公司的历史高水平。

    5、原因分析:针对现状找出的问题点,运用5WHY找出课题产生的根本原因,为对策明确着手点。在做原因分析时一定要注意对现状的问题点做系统的因果分析,并将分析结果和过程描述出来;对于原因分析一定要有“不弄清楚折誓不罢休”的决定,每个明确出来的原因都必须是真实存在的,同时要有非常严密的因果逻辑。

    6、对策:针对课题的根本原因采取彻底的对策,所谓彻底的对策就是对策具有长时间的操作性,使课题不会再发生的对策。在整理对策时需要按照让思维严密的5W2H法要求具体写对策;在制定对策时其核心是在于思考对策的有效性。

    7、效果验证:明确是否是因为对策的实施而带来了目标的达成。此处的验证一定是有数据和事实来明确之前和之后的状态;一定要保证效果确实是由对策所带来的,需要提前计划要收集的数据及收集数据的方法。

    8、跟进措施:将对策进行横向展开,使其产生最大效益。这里也可以运用5W2H的要求对跟进措施进行整理;在横向展开时要先从部门内寻找展开的地方,再从其它部门或公司更大的范围寻找。

    三、问题解决型报告实例展示

    问题解决型A3报告写法

    四、结语

    以上就是问题解决型报告的写法和示例,A3报告看上去很简单,实际上是知易行难,想要提升A3报告的能力,唯一的办法就是多练习、多运用。

    展开全文
  • 引自:itongji 研究称,整个人类文明所获得的全部...有人说大数据是黄金、是竞争力,然而在这一切谈论的背后却鲜有人关注数据质量这个最根本的问题。普元数据产品总监王轩认为,大数据处理的关键就是解决

    引自:itongji


    研究称,整个人类文明所获得的全部数据量,有90%是最近两年内产生的。随着移动互联大潮的席卷,预计通过网路产生的数据量还将呈几何级增长。庞大的数据资源蕴藏着无限的宝藏,过去的一年无论是企业、政府还是媒体,都在谈论大数据。有人说大数据是黄金、是竞争力,然而在这一切谈论的背后却鲜有人关注数据质量这个最根本的问题。普元数据产品总监王轩认为,大数据处理的关键就是解决数据质量问题,规避数据错误、保障数据质量才能真正让企业从大数据应用中获得利益。

    保障数据质量成为大数据发挥价值的先决条件

    企业做数据集成、数据处理的核心价值我认为是两个方面,首先当然能为企业带来更多的盈利,其次是规避风险,而实现这两个核心价值的关键就是解决数据质量问题。现在大数据环境也好,传统数据环境也好,大家面临很严重的问题在哪儿?我们做了很多数据分析和挖掘,这种分析挖掘到底对不对靠什么来衡量?有的企业是基于数据分析作出了一些营销的趋势性结论,但如果你的数据本身是错的,分析出来的结论未必有用。” 普元数据产品总监王轩表示,保证数据质量是大数据为企业带来价值的先决条件。

    《大数据资产:聪明的企业怎样致胜于数据治理》一书的作者 Tony Fisher 曾提到,如果基本数据不可靠,大多数企业的大数据计划要么会失败,要么效果会低于预期。造成上述结果的关键原因在于,数据生命周期之中流入了不一致、不准确、不可靠的数据。在数据领域最流行的一个说法是“更好的数据意味着更好的决策”,这句话从来不假,在当今的大数据时代甚至更为真切。

    “在我们接触的众多银行案例中,经常会遇到这种情况,做完一个数据仓库,客户信息重名的上万个,一个人1000多个账户,这都是数据质量的问题。为什么会出现这种数据问题呢?数据处理是一个复杂的过程,这其中有很多环节,从前期的数据标准、数据集成到数据处理等等,任何一个环节出错都有可能导致数据质量问题。其中数据处理是清洗数据和规避数据风险的重要环节,在这个技术领域普元做得很专注,在业内也是领先的。”王轩认为除了现有数据的处理,规避实时数据风险尤为重要的,如何在交易错误时即时阻断数据错误是保障数据质量的重要手段。由此普元早就提出大数据平台产品线的概念,把所有这些环节需要的技术手段都囊括进来,这正是普元正在修炼的‘秘籍’。”

    普元大数据产品家族 助力企业大数据淘金

    一直以来,国内大型企业主要采用国外的数据处理软件,随着技术的扁平化,国内的数据处理软件技术越来越纯熟,价格相对于国外‘大佬’来说更具竞争力。在数据处理市场国产软件越来越受青睐,一方面原因是企业成本,一方面则是信息安全。

    “本土化的软件更适合国内企业的业务需求,自主掌握知识产权的产品对企业来说安全性更高,IT成本极大降低的同时安全性又得到了提高,企业何乐而不为。”王轩表示。

    普元从2010年开始涉足大数据领域, “普元数据处理软件平台领先的技术和方法论可以从根本帮助用户解决数据质量的问题,普元的复杂事件处理平台则帮助用户实时规避数据风险,普元完备的大数据产品家族提供从咨询、数据集成、数据治理到可视化的‘一站式’服务更是解除了企业大数据应用的后顾之忧。”王轩指出普元大数据产品已具备丰富的功能。

    目前普元的大数据产品家族分为四大平台,分别是智慧数据应用平台、复杂事件处理平台、数据质量平台和元数据管理平台。“普元的大数据产品线在业内是一流和领先的,这一点并非空穴来风。我们的产品在业内特别是金融行业有多年的积淀,普元的数据平台基础软件已经应用于国家开发银行、中信银行、北京银行、上海银行等国内金融行业的重点企业,普元数据线软件产品也受到用户的广泛认可。”王轩强调。

    谈到普元大数据产品在未来的发展方向时,王轩表示“普元的大数据产品家族是非常丰满的,未来普元会持续加大在大数据研发方面的投入,继续完善和扩充大数据产品,以适应新技术时代企业不断变化的数据应用需求。”

    展开全文
  • 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控。作者|Frank,火山引擎高级...

    火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求?

    本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控。

    作者|Frank,火山引擎高级研发工程师

    什么是数据质量

    广义上来说,数据质量的定义是数据满足一组固有特性(质量维度)要求的程度。业界通常有 6 个维度:

    • 完整性:指数据的记录和信息是否完整,是否存在缺失的情况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,所以说完整性是数据质量最基础的保障。在做监控时,需要考虑两个方面:数据条数是否少了;某些字段的取值是否缺失。完整性的监控,多出现在日志级别的监控上,一般会在数据接入的时候来做数据完整性校验。

    • 准确性:指数据中记录的信息和数据是否准确,是否存在异常或者错误。一般准确性的监控多集中在对业务结果数据的监控,比如每日的活跃、收入等数据是否正常。

    • 一致性:指同一指标在不同地方的结果是否一致。数据不一致的情况,多出现在数据系统达到一定的复杂度后,同一指标会在多处进行计算,由于计算口径或者开发人员的不同,容易造成同一指标出现不同的结果。

    • 及时性:在确保数据的完整性、准确性和一致性后,接下来就要保障数据能够及时产出,这样才能体现数据的价值。及时性很容易理解,主要就是数据计算出来的速度是否够快,这点在数据质量监控中可以体现在监控结果数据是否在指定时间点前计算完成。

    • 规范性:指数据是否按照要求的规则进行存储,如邮箱校验、IP 地址校验、电话格式校验等,具有一定的语义意义。

    • 唯一性:指数据是否有重复,如字段的唯一值、字段的重复值等。

    我们对数据质量有一些流程和规范,并针对上述一些维度开发了一套数据质量平台,主要关注数据质量及其生产链路。

    aa7e9e4643ed3e3e79685f3a56647d87.png

    上图展示了在数据开发的流程中,数据质量平台可以提供哪些功能:

    • 数据探查:可以根据各种维度来查看数据明细和分布情况。

    • 数据对比:开发同学可能经常会发现线上表和测试表不一致,所以我们在任务上线的环节提供了数据对比的功能。

    • 任务监控:监控线上数据,提供报警和熔断功能。

    数据质量平台最有代表性的功能是:对数据开发平台产出的 Hive 表数据进行主键重复检测,如果存在重复则进行报警。

    数据质量监控最有用的场景是防止数据问题蔓延到下游。举个例子:数据任务产出一张 Hive 表,该表可能会同步一些信息到 Hive metastore(HMS)。HMS 的主从架构可能存在一定的延迟,假设 HMS 出现问题,下游任务可能会读到脏数据,这时如果我们使用数据质量监控,就能及时发现问题,阻止下游任务运行。

    数据质量挑战

    目前我们的数据质量挑战有哪些?可以通过几个用户 case 了解一下。

    User Story 1

    某流量级产品商业化系统,M 级日志条数/秒;希望秒级监控日志延迟、关键字段空值,T+1 检测日志波动率。

    User Story 2

    某内部业务系统,日志存储 ES;希望每 5 分钟检测上一周期日志波动情况。

    User Story 3

    某内部指标平台,业务数据由 Hive 定期同步到 ClickHouse;希望每次同步任务后检查 Hive 与 ClickHouse 中的指标是否一致。

    通过上面的介绍,大家应该也大致清楚了当前数据质量需要解决的问题。可能有些同学会说,数据质量平台我也做过,问题归总起来也不复杂,总而言之就是对数据进行各种计算,对比计算来的阈值即可,一般直接依赖于 Spark 引擎或者 Hive 引擎计算即可。确实,其实这也是我们数据质量最开始的样子。那为什么会演化到目前这样,我们面临了一些什么问题?

    首先是场景需求非常复杂:

    1. 离线监控不再多说了,大家都熟悉,主要是不同存储的数据质量监控,比如 Hive 或者 ClickHouse 。

    2. 字节跳动内部的广告系统对时效性和准确性要求很高,用广告同学的话说,如果用微批系统 10 min 才做一次检测,可能线上损失就上百万了甚至千万了。所以广告系统同学对实时性要求相对较高。

    3. 另外一个是复杂拓扑情况下的流式延迟监控。

    4. 最后是微批,指一段时间内的定时调度,有些 Kafka 导入 ES 的流式场景,需要每隔几分钟对比下前一周期。

    此外,字节跳动各种产品会产出海量的日志数据,我们需要用有限的资源来满足大家对质量监控的需求。

    面临这些挑战,我们的解决方案是什么?

    流批数据质量解决方案

    产品功能架构

    火山引擎流批数据质量解决方案有 4 个大的功能:

    • 离线数据质量监控:解决批和微批监控场景,支持 Hive、ClickHouse、ES 等多种数据源,并有字段、唯一性等多种监控维度,允许通过 SQL 自定义维度聚合进行监控。

    • 流式数据质量监控:解决流式监控场景,支持 Kafka/BMQ 等数据源。

    • 数据探查:解决数据开发之前对数据内容存疑问题,支持 Hive 数据源。

    • 数据对比:解决新旧表数据一致性问题,支持 Hive/Hive SQL 数据源。

    afa691fac899d48133e67d8cead667a7.png

    系统架构

    a7bc048e6e3f1923a237bee4360a3420.png

    上图是数据质量平台的系统架构图,主要分为 5 个部分:

    • Scheduler:外部调度器,触发离线监控。主要分两种类型:

      • 对外提供 API 调用任务;

      • 定时调度,通过 calljob 调用数据。

    • Backend:后端服务,偏服务层,处理业务逻辑。主要负责:

      • 质量平台和外部的交互,所有 API 响应都是通过这一层进行;

      • 任务提交:用户在质量平台配置的规则会放到业务存储,Scheduler 被调用后,Backend 会将任务相关的参数配置进行任务提交;

      • 获取质量监控的结果并进行判断,然后和外部系统进行交互,在需要时发送警报通知用户。

    • Executor:平台核心的任务执行模块,集成了一些引擎,例如数据探查使用 OLAP 引擎。质量监控部分使用 Griffin 的 Measure 进行数据统计。

    • Monitor:是一个相对独立的模块,主要进行状态服务的流转,提供重复报警等功能。

    • Alert Center:质量平台强依赖于该平台。它是外部报警服务,接收各种报警事件。

    离线数据检测流程

    下面看一下离线数据的检测流程。

    a447a74ed578291d70fffb87088c3a96.png

    离线数据的监控、探查、对比的执行流程一致,主要分为 4 步:

    1. 监控触发:调度系统调用质量模块 Backend API;

    2. 作业提交:Backend 以 Cluster 模式提交 Spark 作业至 Yarn;

    3. 结果回传:作业结束 (成功、失败),Driver 将结果 sync 至 Backend;

    4. 消息触发:Backend 根据结果触发相应动作 (例如:报警、消息提示)。

    我们总结了一下数据质量平台的优势:

    • 调度系统低耦合:数据质量平台没有和调度系统强绑定,一般可以用业务系统的 API 实现互相调用。

    • 事件触发高效,Backend 水平扩展能力强:Backend 是无状态的实例服务,如果质量监控的业务系统较多,Backend 可以采用水平扩展的方式部署,接收请求并提交作业。

    • 没有 Quota 限制:平台本身没有维护数据质量监控单独需要的资源队列,而是把这个权限开放给用户,用他们自身的资源做资源监控。这样就把 Quota 问题转换成了用户资源问题。

    当然任何一个工具都不可能是完美的,数据质量平台暂时还有一些待提升的地方:

    • 非 CPU 密集型查询较重:整个平台的设计是以任务提交的方式完成离线场景的需求。但是后来我们发现其实不需要启动 Spark 的作业仍然会启动一个 Spark 作业,如 ES SQL 查询,这个查询是很重的。

    • 依赖 Yarn 做调度稳定性不高:平台上的任务在资源不充足或被挤占的情况下,会出现任务运行或调用很慢。

    流式监控执行

    对于流式数据的监控,我们选择了 Flink 引擎,因为流式数据不同于离线数据,不能用快照的方式低成本拿到过程。所以我们要依赖一些外部的时序数据库再加规则引擎来展示对数据的监控。

    748ed2897596c92f43a8f376ae792c1f.png

    平台上流式数据监控的流程为:

    1. 根据规则定义,创建 Flink 作业;

    2. 根据报警条件,注册 Bosun 报警事件;

    3. Flink 作业消费 Kafka 数据,计算监控指标写 Metrics;

    4. Bosun 基于 Metrics 的时序数据,定时检测,触发报警;

    5. Backend 接收报警回调,处理报警发送逻辑。

    下面着重介绍两个模块的实现。

    Executor 实现

    7760390bd045b5666909303a69cc929d.png

    Executor 是基于 Apache Griffin 的 Measure 模块改造的一个 Spark Application。功能包括:

    • 适配数据源

    • 数据转化为 DataFrame

    • 规则转化为 SQL 操作

    • 计算结果

    Executor 的选型有以下几方面的考虑:

    • 扩展性要足够强,能够适配不同的数据源,如 Hive,MySQL 等等

    • 计算性能要较强

    • 支持的监控类型种类需要足够多

    考虑到以上方面的信息,我们选用了 Apache Griffin 的 Measure 模块作为 Executor。它基于 Spark 开发,能够适配不同的数据源,并且对于 DSL 做了一系列拓展。基于平台的设计,我们需要和 Backend 进行较多的互动,并把数据进行回传。其实 Griffin Measure 本身就支持了一些基本的数据质量监控,比如重复值检测、自定义 SQL 等等,这里重点说明一下我们对 Measure 模块的改造:

    • 改造数据源、Sink 使其能够通过 HTTP 访问远程 API;

    • 部分功能增强、修改,例如:支持正则表达式;

    • 流式监控从 Spark Engine 切换为 Flink Engine,优化整体流式监控方案。Measure 本身是 Spark 生态的一部分,只能用 Spark Engine 做理线或者用微批模拟流式做监控。字节跳动内部本身有一定的 Flink 的能力,并且 Flink 对流式数据的处理能力比微批要好很多,所以我们就进行了这样的改造。

    Monitor 实现

    Monitor 模块主要是为了实现失败报警重试和重复报警功能,根据事件类型触发相应事件(重复报警、失败重试等)。因为业务数据全部存储在 MySQL,平台之前的 Monitor 重复报警做的也比较简单,即直接通过轮询的方式从 MySQL 中轮询拉起已报警实例,然后通过重复提交的方式进行报警。

    f1db481348405a8f4b7febeebb3fc2bc.png

    随着监控的规则越来越多,库的压力会非常大,Monitor 的扫描也遇到了一些瓶颈,因此我们对 Monitor 进行了技术架构升级,具体改造内容包括:

    • 有状态服务,主节点对外提供服务;主备保证 HA

    • 接收 Backend 事件:监控失败、报警

    • 内存定时队列,事件性触发机制

    最佳实践

    前面介绍了数据质量平台的一些实现方式,下面为大家介绍一些我们在数据量和资源这两个方面的最佳实践。

    表行数信息-优先 HMS 获取

    内部的离线监控中,表行数的监控占比非常大,可能至少 50% 以上的离线规则都是表行数的监控。对于表行数,之前我们是通过 Spark,Select Count* 提交作业,对资源的消耗非常大。

    后来我们对其做了一些优化。在任务提交的过程中,底层引擎在产出表的过程中将表行数记录写入相应分区信息中,我们就可以直接从 HMS 分区里直接获取表行数信息,从而避免了 Spark 任务的提交。

    295d2a3c4c397045c73da8b8f8b1fff5.png

    优化后的效果非常明显,目前对于表行数的监控,HMS 获取行数占比约 90 %,HMS 行数监控平均运行时长在秒级别。

    注:这个功能需要推动底层服务配合支持,比如 Spark 需要把保存在本地 metric 里面的信息写入到 HMS 中,其他数据传输系统也需要支持。

    离线监控优化

    这一块是基于 Griffin 的 Measure 来进行,Measure 本身有丰富的功能,我们对其进行了裁剪以节约耗时。主要的裁剪和优化包括:

    • 裁剪掉部分异常数据收集功能;

    • 优化非必要的 join 流程。

    另外,我们也对离线监控的执行参数进行了优化,主要包括:

    • 根据不同的监控类型,添加不同的参数 (shuffle to hdfs 等);

    • 根据监控特性,默认参数优化(上调 vcore 等)。

    举个例子:用户写了 SQL 进行数据的 join,执行引擎可以分析出执行计划。对于 join 类的操作,shuffle 可能非常大,这种情况下我们默认会开一些 Spark 参数。

    根据表行数来预判数据表的大小,如果判断数据表比较大,会默认微调 vcore 和 memory。以上这些优化都能在一定程度上提升性能,目前平台上各类监控的平均运行时长缩短了 10% 以上。

    引入 OLAP 引擎

    平台上很多数据表和业务表(除了日志表以外),在数仓上层的表监控数据量不是很大,这种情况很适合进行 OLAP 的查询。

    12f86e7475e6da3c15473a689c4e95d3.png

    这种情况下我们在数据探查场景引入了 presto。之前在该场景下通过 Spark 做探查,引入 presto 之后通过快速 fail 机制,大数据量、计算复杂的探查任务 fallback 到提交 Spark 作业,探查时间中位数从之前的 7min 缩短到目前的不到 40s,效果非常显著。

    流式监控支持抽样 & 单 Topic 多 Rule 优化

    Kafka 数据抽样

    一般流式数据的问题都是通用性问题,可以通过数据采样发现问题。因此我们开发了数据采样的功能,减少数据资源的占比消耗。Flink Kafka Connector 支持抽样,可直接操作 kafka topic 的 offset 来达到抽样的目的。比如,我们按照 1% 的比例进行抽样,原来上 W 个 partition 的 Topic,我们只需要 ** 个机器就可以支撑。

    单 Topic 多 Rule 优化

    最早的时候我们是对一个 Topic 定义一个 Rule,然后开启一个 Flink 任务进行消费,执行 Rule。后来我们发现一些关键的数据需要对多个维度进行监控,也就是要定义多个维度的 Rule,对每一条 Rule 都开任务去消费是非常耗资源的,所以我们利用监控不是 CPU 密集型作业的特性,复用读取部分,单 slot 中执行多个 Rule,对 Topic 级别进行单一消费,在一个任务中把相关 Rule 都执行完。

    7c8963fc4493a666ec6ddb9d0bf3b0d0.png

    未来演进方向

    本文介绍了数据质量平台的实现和最佳实践,最后谈谈平台未来的演进方向。

    • 底层引擎统一,流批一体:目前平台的离线任务大部分是基于 Spark 完成的,流式数据采用了 Flink 处理,OLAP 引擎又引进了 presto,导致这套系统架构的运维成本比较高。我们看到 Flink 目前的 presto 能力和 Flinkbatch 的能力也在不断发展,因此我们后续会尝试切一些任务,做到真正意义上的统一引擎。

    • 智能:引入算法进行数据驱动。考虑引入 ML 方法辅助阈值选取或者智能报警,根据数据等级自动推荐质量规则。举几个例子,比如我们可以基于时序算法智能的波动率监控来解决节假日流量高峰和平常的硬规则阈值的提升。

    • 便捷:OLAP 对性能提升比较显著,但是目前我们只用在了数据探查功能上。后续可以将 OLAP 引擎应用于质量检测、数据据探查、数据对比应用与数据开发流程。

    • 优化:比如通过单一 Job,同时运行多个监控,将监控和数据探查结合。我们现在在尝试将数据质量的规则生成和数据探查做结合,做到所见即所得的数据和规则的对应关系。

    Q&A

    Q:数据质量问题的排查很多时候时间成本非常高,你们在数据质量问题的归因分析上有做什么工作吗?

    A:这个问题是非常核心的痛点。这里可以介绍下目前我们的思路:联合字节跳动算法的同学做数据下钻,也就是对数据链路的每一张表都进行数据探查。如果发现质量问题,通过一些类似于血缘和字段的关系找到数据上游的字段。目前我们在做的还是这样偏探查+流程的方式去尽快了解上游数据,归因分析这部分暂时还没有什么进展。

    Q:数据质量闭环是如何做的:比如数据质量问题由谁来解决?数据质量如何衡量?

    A:数据质量问题谁来解决?谁在关注数据质量,谁去 push 推进,谁开发了数据,谁去解决数据质量问题。这是一个协作上的问题。

    如何衡量数据质量?我们内部有一些可治理的指标,比如报警量、核心任何的报警率等。

    Q:如何保证端到端数据一致性?

    A:端到端数据一致性不是一个单一的工具能解决的,可能需要一些方案,比如:从端上上报的数据,结合埋点系统做数据校验,在发版的时候确定数据是准确的。但是我认为端到端数据一致性目前整个行业都还做的比较欠缺,业务端如果出现了问题,是很难排查的。如果对数据链路的每一层都做监控,可能问题排查起来会相对简单一些,但这种做法代价又比较大。

    公众号推送规则变了

    点击上方公众号名片,收藏公众号,不错过精彩内容推送!

    f370bae0b7897c4ead8e47586d6887bc.gif

    往期推荐

    大数据平台数据治理规划方案.pdf(300页)

    数据湖的元数据治理实践

    为什么要做数仓分层,不做行吗?

    展开全文
  • 贪心算法解决背包问题

    千次阅读 2019-11-11 21:01:47
    贪心算法解决背包问题 问题描述: 给定 n 个物品和一个容量为 C 的背包,请给出物品装入背包的方案,使得背包中物品的总价值 M 最大,并满足: 1.每个物品 I 的重量为 wi,价值为 vi。 2.每个物品可拆分,背包中物品...
  • 软件质量问题谁负责

    千次阅读 2017-11-25 15:07:27
    1. 产品人员:需求提出人员对软件质量发挥着决定性作用,如果是需求提出人需求传达错误导致产品问题、软件需求频繁地...3. 开发为主:软件在编码架构上的不严谨导致的质量问题、软件不按需求实现的情况;项目经理需
  • 解析包时出现问题如何解决?安卓APP在安装的时候如果出现意味的操作,极容易出现“解析包时出现错误”的提示,当然这种情况极其少见,更多的原因是该安卓APP是经过第三方修改过的,建议在官方或应用平台下载APP。...
  • 工程建设数字化管理系统质量安全数字化管理解决方案将质量安全管理责任按照网格化管理机制落实,做到横向到边、纵向到底、责任到人,并按照网格自动化统计和分析网格人员责任落实情况与网格质量安全问题,既将责任落...
  • 如何提高建筑施工的安全质量管理力度,减少因建筑工程施工安全质量造成的经济损失,保证建筑工程质量达到施工标准成为建筑企业必须着力解决问题。 安质保智慧建造云平台以建筑施工企业安全质量管理以及施工现场...
  • 近几年,随着“教育均衡化”理念的提出,“努力让每个孩子都能享有公平而有质量的教育”成为义务教育阶段新的目标,有关部门在师资力量、软硬件建设等方面加大投入,努力缩小城乡与地区间的教育水平差异。...
  • 改进方法就是将GAN的目标函数由交叉熵损失换成最小二乘损失,而且这一个改变同时解决了两个缺陷。 为什么最小二乘损失可以提高生成图片质量? 我们知道,GANs包含两个部分:判别器和生成器。判别器用于判断一张...
  • 电力大数据存在的问题解决方案

    千次阅读 2022-02-18 10:57:28
    电力大数据在提高电力企业工作质量和效率的同时,也存在着显著的安全问题,影响着电力大数据的应用。针对电力大数据的安全问题进行有效地解决,是当前电力企业面临的重要工作任务。 什么是电力大数据 近年来,随着...
  • 强化学习是如何解决问题的?

    千次阅读 2018-01-16 16:51:53
    强化学习是如何解决问题的?什么是强化学习算法呢,它离我们有多远?2016年和2017年最具影响力的AlphaGo大胜世界围棋冠军李世石和柯洁事件,其核心算法就用到了强化学习算法。相信很多人想了解或者转行研究强化学习...
  • 龙芯1c做的3d打印机简称“龙印”,Git地址“http://git.oschina.NET/caogos/marlin_ls1c”玩FDM 3d打印机时难免会遇到各种各样的问题导致打印质量欠佳,针对常见的有些问题,网上有大神专门整理了,比如打印质量排故...
  • 不过,最近我的确有一个新发现——我发现“归类分组”在我们解决问题中起着巨大的作用。而这里的“问题”不仅仅限于软件设计,从日常生活、产品设计到公司战略、生物分类。都有它的身影。 这是为什么呢?究其原因...
  • 羽素与维琪多肽研究院一直共同致力于小分子多肽研究,致力于将多肽运用于痘痘肌肤修护当中,共同研发出更多高效、创新、科学的痘肌修护解决方案,为问题肌肤带来更多的可行性、延展性,帮助更多朋友们重获美的自由。...
  • 2.基础质量控制 3.FastQC结果报告 简要说明 1.FastQC 安装 1.$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip 2.$ unzip fastqc_v0.11.7.zip 3.$ cd...
  • 农产品的安全问题一直是广大人民息息相关的问题,吃的好吃的放心一直是大家的期许。可是事与愿违,越来越...农产品质量安全追溯为企业实现哪些系统功能? 1.农产品安全生产管理 以农业生产者的生产档案信息为基础,...
  • 一个真正的高手,其实应该有能力用一套方法论去解决问题的所有,不管这个问题再难,再新鲜,再简单都能搞定。 什么是问题?一言以蔽之,问题来源于现实与目标的差距。 因此,问题产生的原因可能是: ...
  • 1. 提测质量差  问题描述:第一个提测版本差,有些均未通过冒烟测试  问题分析  A. 版本提测质量差,但基于发布时间已在,因此,在提测差时就开始... 解决方式:  明确版本提测要求,并且开发得到了足够的时间...
  • 分支限界法解决零一背包问题

    千次阅读 2020-05-29 21:11:04
    解决背包问题时,可以直接使用贪心法进行求解,思路也容易理解:先将物品的性价比进行排序,然后从高到低进行选取,保证选取的物品是当前最优选择。由于物件可分得缘故,所以每一步都可行。因此每一步可行以及每...
  • 简单易懂,蚁群算法解决旅行商问题

    万次阅读 多人点赞 2018-10-29 21:06:40
    原文把蚁群解决旅行商问题写的很清楚,只不过本人认为原文中有一些小错误,特此更改(文中红色加粗字体为改正处),代码中出现的一些算法的小问题也进行了更正(比如代码中的贪心算法),代码也附在下面,谢谢博主的...
  • 质量免费--读书笔记(上篇)

    千次阅读 2018-10-10 18:50:22
    推荐序:韦恩.考斯特 克劳士比非常想让人们知道:质量的定义是符合要求,而不是好;质量的系统是预防,而...是用质量文化把质量融入日常的业务和关系中,或者说,已变成了一个组织管理中重要的思想和实质的成分。...
  • 14个提高代码质量的好问题

    万次阅读 多人点赞 2020-04-17 08:07:51
    阅读本文大概需要 2.6 分钟。并不是代码写的越多,代码的质量就越高。思考才是。解决一个问题,打开电脑就手撕代码,最终的结果往往是各种代码问题,经过一系列迭代后,代码积重难返,最终的结果...
  • 那么it人才外包到底可以帮助企业解决哪些问题? 一、解决招聘难,招不到合适的人的需求。 相对于互联网企业,传统的企业在it人才的招聘工作中,缺少既往的经验,项目已经立项拍好时间,可是到了环节总是招不到人...
  • 解决问题最简单的方法

    千次阅读 2016-08-20 07:09:45
    这是一本小书,只有145页,7万字左右,花2个小时就能读完,但你会学到立马提高你解决问题能力的10多种方法。
  • 0-1 背包问题的 4 种解决方法&&算法策略

    万次阅读 多人点赞 2018-11-01 15:39:54
    现在将0-1背包问题解决方法整理出来,这样不仅能区分不同的算法思想,还能加深对0-1背包问题的理解。虽然有的算法思想并不能解决这一问题,但是为了对算法策略有一个较为整体的了解,所以在这里做一下简单的介绍。...
  • 程序员必备的60个网站,解决你编程的所有问题

    千次阅读 多人点赞 2020-07-15 09:32:28
    在这里能够与很多有经验的开发者交流,如果你是有经验的开发者,还可以来这儿帮助别人解决问题,提升个人影响力。 2. 程序员客栈:https://www.proginn.com/ 程序员客栈是领先的程序员自由工作平台,如果你是有经验...
  • 写在前面: 这是一个系列文章,沉淀了我在数据治理领域的一些实践和思考。共分为5篇。分别是: 一、大数据治理:那些年,我们一起踩...提升数据质量,始终是数据治理工作中最重要的目标之一。本篇讲述如何科学地进...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 550,958
精华内容 220,383
关键字:

如何解决质量问题