精华内容
下载资源
问答
  • 建立了累积性创新的博弈模型,推导、分析了技术外溢、劳动力流动、商业秘密保护和创新企业形成集群的理论关系。分析结果表明只要第二创新的价值远远高于第一创新,企业便会选择集群共享技术外溢的好处,发展第...
  • 数仓模型之维度表技术 维度表概念 维, 是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。 维度是维度建模的基础和灵魂。 维度属性是查询约束条件、分组和报表标签生成的基本来源,是数据...

    维度表概念

    维, 是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。

    维度是维度建模的基础和灵魂

    维度属性是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键

    维度的作用一般是查询约束、分类汇总以及排序等。

    维度使用主键标识其唯一性,主键也是确保与之相连的任何事实表之间存在引用完整性的基础。

    维表通常较宽,扁平型非规范表,包含大量的低粒度的冗余文本属性

    主键的分类

    ​ 代理键:代理键是不具有业务含义的键。在Kimball的维度建模领域里,是强烈推荐使用代理关键字的

    ​ ⭐提示:《大数据之路》中提到阿里巴巴不使用!

    	优点:
    	多个操作型系统的数据进行整合时,这些系统中的数据有可能缺乏一致的关键字编码,即有可能出现重复(或者主键规则不一致)
    	用代理关键字可以带来性能上的优势。和自然关键字相比,代理关键字很小,是整型的,作为外键联接的效率也很高
    	使用代理关键字可以用来处理缓慢变化维。维度表数据的历史变化信息的保存是数据仓库设计的实施中非常重要的一部分。
    	缺点:
    	代理关键字的使用使数据加载变得非常复杂,使用代理键会大大增加 ETL的复杂性,对 ETL 任务的开发和维护成本很高,全局唯一难度大
    	
    

    ​ 自然键:具有业务含义的键。

    维度的基本设计方法

    维度的设计过程就是确定维度属性的过程,如何生成维度属性,以及所生成的维度属性的优劣,决定了维度使用的方便性,成为数据仓库
    易用性的关键。正如 Kimball 所说的,数据仓库的能力直接与维度属性的质量和深度成正比

    维度设计方法步骤

    1. 选择维度或新建维度。作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性

    2. 确定主维表。此处的主维表一般是 ODS 表,直接与业务系统同步。以淘宝商品维度为例, s_auction_auctions 是与前台商品中心
      系统同步的商品表,此表即是主维表。

    3. 确定相关维表。确定哪些表和主维表存在关联关系,并选择其中的某些表用于生成维度属性。

    4. 确定维度属性。本步骤主要包括两个阶段,其中第一个阶段是从主维表 中选择维度属性或生成新的维度属性;第二个阶段是从相
      关维表中选择维度属性或生成新的维度属性。

      • 尽可能生成丰富的维度属性 ——尽量冗余

      • 尽可能多地给出包括一些富有意义的文字性描述 ——编码文字化

      • 区分数值型属性和事实

        如果数值型字段是离散值,则作为维度属性存在的可能性较大;如果数
        值型宇段是连续值 ,则作为度量存在的可能性较大,但并不绝对,需要
        同时参考宇段的具体用途。

      • 尽量沉淀出通用的维度属性

    维度变化处理

    缓慢变化维 (Slowly Changing Dimensions )

    缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。 例如一项合同的发生变更

    处理缓慢变化维的方法通常有三种方式:

    • 直接覆盖原值 :这样处理最容易实现,始终取最新数据 ,但是没有保留历史数据,无法分析历史变化信息。

      场景:若A商家签订了租赁合同100平米,当合同内容发生修改为120平米,因合同主键不变,但只保留最新的120平米,历史数据坪效只能按照120平米分母计算
      
      合同编号§ 合同面积
      N001 100 120
    • 添加维度行 :这样处理需要代理键的支持。实现方式是当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原维度记录保持关联。

      优点:可以记录分段事实表表关联记录
      缺点:难点在于代理键的维护,有些场景不分段计算不适用
      
      合同代理键§ 合同编号 合同面积
      1 N001 100
      2 N001 120
    • 添加维度列 :这种处理的实现方式是对于需要分析历史信息的属性添加一列,来记录该属性变化前的值,这种方式的优点是可以同时分析当前及前一次变化的属性值,缺点是只保留了最后一次变化信息。 最终只能按其中一列维度进行计算

      合同编号§ 合同面积(旧) 合同面积(新)
      N001 100 120

    快照维表

    处理缓慢变化维的方法是采用快照方式。

    数据仓库的计算周期一般是每天一次,基于此周期,处理维度变化的方式就是每天保留一份全量快照数据。比如商品维度,每天保留一份全量商品快照数
    据。任意一天的事实均可以获取到当天的商品信息 ,也可以获取到最新的商品信息,通过限定日期,采用自然键进行关联即可。

    ⭐提示:阿里巴巴推荐使用,由于现在存储成本远低于 CPU、内存等的成本,此方法弊大于利

    优点:简单有效,开发和维护成本低;使用方便,理解性好。

    缺点:存储浪费大。

    合同编号(p1) 日期(p2) 合同面积
    N001 2021-05-01 100
    N001 2021-05-02 120

    极限存储

    缓慢变化维的第二种处理方式。这种处理方式是通过新增两个 时间戳字段(sta rt_dt 和 end_dt ),将所有以天为粒度的变更数据都记录下来。通常
    分区字段也是时间戳字段。

    合同编号(p1) sta rt_dt(p2) end_dt(p3) 状态 合同面积
    N001 2020-01-01 2021-05-01 失效 100
    N001 2021-05-02 unknow 生效 120

    这种存储方式对于下游使用方存在一定的理解障碍,因此会存在较高的解释成本。同时,随着时间的推移,分区数量会极度膨胀。故而引出极限存储。

    微型存储

    微型维度的创建是通过将一部分不稳定的属性从主维度中移出,并将它们放置到拥有自己代理键的新表中来实现的。

    意思是维度表采用星型结构,将可变属性与不可变属性维度拆分出来

    很少被采用的原因如下:

    • 微型维度的局限性,将维度表进一步复杂化了,造成整体数仓雪花型结构
    • ETL逻辑复杂,对于分布式系统,生成代理键和使用代理键进行ETL 加工都非常复杂, ETL 开发和维护成本过高。 ;
    • 破坏了维度的可浏览性。不易理解。

    其他感悟和体会

    • 关于数仓模型

      数据仓库只是一套方法论,没有准备的只有适合的。目的是实现底层数据模型设计到数据服务,做到数据可管理、可追溯、可复用,取得改造成本、资源耗用、可理解性之间的平衡

      数据仓库分层也没有绝对的规范。但有几个准则

      清晰数据层次结构,数据血缘追踪(定位哪个层级出现问题),减少重复开发,数据关系条理化(不允许同层、跨层、逆层的依赖)

    • 关于日期维度表(对于公司的使用建议)

      作为最最常用的维度表,其实有着重大的使用价值与意义,同时也是可以不断拓展字段维度进行使用。

      存在问题

      • 公共模型中的日期维度表中维度字段过少,满足不了各式各样的业务需求

        例如以下季度可能有N种拓展写法

        日期 id 2018-01-01
        数值日期 int_date 20180101
        year 2018
        month 1
        day 1
        季度 quarter 1
        季度名称中文 ch_quarter 2018年第一季度
        季度名称英文 en_qurater 2018Q1
        季度名称中文简写 ch_quarter_s 第一季度
        季度名称英文简写 en_qurater_s Q1
        星期几 day_name Monday
        一年的第几周 weekofyear 1
        一年的第几天 dayofyear 1
        该月有几天 daysinmonth 31
        这周第几天 dayofweek 1
        是否闰年 is_leap_year FALSE
        是否月末最后一天 is_month_end FALSE
        是否月初第一天 is_month_start TRUE
        是否季度末最后一天 is_quarter_end FALSE
        是否季度初第一天 is_quarter_start TRUE
        是否年末最后一天 is_year_end FALSE
        是否年初第一天 is_year_start TRUE
        农历 lunar_date 冬月十五
        干支纪年 gz_year 丁酉年
        生肖年 sx_year 鸡年
        干支纪日 gz_day 癸巳日
        节气 solar_terms
        星座 zodiac 摩羯座
        节假日 holiday 元旦
        特殊促销日,财务周期等等
      • ETL任务中较少通过连接维度表拓展需要的日期维度字段,而是通过事实表业务日期去进行SQL计算,有几点影响

        • 日期维度的取用在业务需求往往是难以统一的,在事实表ETL任务中拓展 非常见的日期字段往往需要冗长的SQL代码,可看性降低
        • 复用性差,同时某些特殊日期是不可能通过SQL去实现的例如春节假期
        • 计算资源消耗更大
      • 最简单方式可下载特殊日期维度数据通过Excel维护上传

    • 关于宽表

      在数仓层开始引入了宽表。所谓宽表,迄今为止并没有一个明确的定义。通常做法是把很多的维度、事实上卷或者下钻之后关联到某一个事实表中,形成一张既包含了大量维度又包含了相关事实的表。

      宽表的使用,有其一定的便利性。使用方不需要再去考虑跟维度表的关联,也不需要了解维度表和事实表是什么东西。

      但是随着业务的增长,始终无法预见性地设计和定义宽表究竟该冗余多少维度,也无法清晰地定义出宽表冗余维度的底线在哪里。为了满足使用上的需求,要不断地将维表中已经存在的列增加到宽表中。这可能宽表的表结构频繁发生变动。

      • 若取用全部维度字段则宽表字段过多,可能大多数字段不取用或弃用的情况
      • 若出现宽表新增字段情况,可尽量不新增在宽表上,通过模型拓展
      • 可尽量用维度模型代替宽表;
        • 事实表的粒度基本不会改变
        • 事实表和维度表解耦,维度表的变更事实表基本不会影响,结果表也只需要回刷一下数据流程即可;
        • 通过维度模型再生,可对快速的业务进行支撑

    参考文献:
    《大数据之路:阿里巴巴大数据实践》
    数据仓库工具箱 维度建模权威指南(第3版)

    展开全文
  • (2)由数据挖掘软件产生的预测模型能够自动地被操作系统吸收,从而操作系统中的预测模型相联合提供决策支持的功能。(3)能够挖掘网络环境下的分布式和高度异质的数据,并且能够有效地和操作系统集成。第三...

    试述第三代数据挖掘系统的特征及其关机技术

    特点:(1)和预测模型系统之间能无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预测模型系统中。(2)由数据挖掘软件产生的预测模型能够自动地被操作型系统吸收,从而与操作型系统中的预测模型相联合提供决策支持的功能。(3)能够挖掘网络环境下的分布式和高度异质的数据,并且能够有效地和操作型系统集成。第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据,并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预测模型以及管理这些预测模型的元数据提供第一级别(first class)的支持。

    展开全文
  • 1.2 ATMIP 4 1.3 IP交换 6 1.4 路由器IP交换 8 1.5 一个IP交换的标准 9 1.6 结论 10 第2章 TCP/IP、寻址和选路 12 2.1 TCP/IP的历史 12 2.2 TCP/IP体系结构和组成部分 13 2.3 IPv4头格式 15 2.4 IPv4寻址 16 2.4.1...
  • 资源:计算机网络因特网(互联网技术的“圣经”) 作者:国外数据作者未知 版本:中文译本 主要内容: 本书以一种清晰并易于接受的方式将深奥的互联网技术问题表达给具有各种背景的读者。作者是互联网最早期的...
  • 国家高技术研究发展计划(“863”计划),是一项具有明确国家目标的国家科技计划,是发展高科技、实现产业化、建设创新国家的重大举措。“863”通信高技术丛书,是对通信信息领域的课题以及相关重大专项的成果总结...
  • 1.2 ATMIP 4 1.3 IP交换 6 1.4 路由器IP交换 8 1.5 一个IP交换的标准 9 1.6 结论 10 第2章 TCP/IP、寻址和选路 12 2.1 TCP/IP的历史 12 2.2 TCP/IP体系结构和组成部分 13 2.3 IPv4头格式 15 2.4 IPv4寻址 16 2.4.1...
  • 国家高技术研究发展计划(“863”计划),是一项具有明确国家目标的国家科技计划,是发展高科技、实现产业化、建设创新国家的重大举措。“863”通信高技术丛书,是对通信信息领域的课题以及相关重大专项的成果总结...
  • 人工智能的最新趋势是,更大的自然语言模型可以提供更好的准确性,但是由于成本、时间和代码集成的障碍,较大的模型难以训练。...同时,最新技术相比,其系统性能可以提高 5 倍以上。 根据微软的介绍,Deep...

    人工智能的最新趋势是,更大的自然语言模型可以提供更好的准确性,但是由于成本、时间和代码集成的障碍,较大的模型难以训练。微软日前开源了一个深度学习优化库 DeepSpeed,通过提高规模、速度、可用性并降低成本,可以在当前一代的 GPU 集群上训练具有超过 1000 亿个参数的深度学习模型,极大促进大型模型的训练。同时,与最新技术相比,其系统性能可以提高 5 倍以上。

    根据微软的介绍,DeepSpeed 库中有一个名为 ZeRO(零冗余优化器,Zero Redundancy Optimizer)的组件,这是一种新的并行优化器,它可以大大减少模型和数据并行所需的资源,同时可以大量增加可训练的参数数量。研究人员利用这些突破创建了图灵自然语言生成模型(Turing-NLG),这是最大的公开语言模型,参数为 170 亿。

    ZeRO 作为 DeepSpeed 的一部分,是一种用于大规模分布式深度学习的新内存优化技术,它可以在当前的 GPU 集群上训练具有 1000 亿个参数的深度学习模型,其吞吐量是当前最佳系统的 3 到 5 倍。它还为训练具有数万亿个参数的模型提供了一条清晰的思路。

    ZeRO 具有三个主要的优化阶段,分别对应于优化器状态、​​梯度和参数分区。

    ZeRO 克服了数据并行和模型并行的局限性,同时实现两者的优点,它通过跨数据并行进程将模型状态划分为上图所示的参数、梯度和优化器状态分区,而不是复制它们,从而消除了数据并行进程之间的内存冗余。在训练期间使用动态通信规划(dynamic communication schedule),在分布式设备之间共享必要的状态,以保持数据并行的计算粒度和通信量。

    目前实施了 ZeRO 的第一阶段,即优化器状态分区(简称 ZeRO-OS),具有支持 1000 亿参数模型的强大能力,此阶段与 DeepSpeed 一起发布。

    DeepSpeed 与 PyTorch 兼容,DeepSpeed API 是在 PyTorch 上进行的轻量级封装,这意味着开发者可以使用 PyTorch 中的一切,而无需学习新平台。此外,DeepSpeed 管理着所有样板化的 SOTA 训练技术,例如分布式训练、混合精度、梯度累积和检查点,开发者可以专注于模型开发。同时,开发者仅需对 PyTorch 模型进行几行代码的更改,就可以利用 DeepSpeed 独特的效率和效益优势来提高速度和规模。

    DeepSpeed 在以下四个方面都表现出色:

    • 规模:目前最先进的大型模型,例如 OpenAI GPT-2、NVIDIA Megatron-LM 和 Google T5,分别具有 15 亿、83 亿和 110 亿个参数,而 DeepSpeed 的 ZeRO 第一阶段提供系统支持,以运行多达 1000 亿个参数的模型,这是比当前最先进的模型大 10 倍。未来计划增加对 ZeRO 第二和第三阶段的支持,从而提供高达 2000 亿个乃至数万亿个参数的模型的能力。
    • 速度:在各种硬件上,目前观察到的吞吐量比当前最先进技术高出 5 倍。例如,为了在 GPT 系列工作负载上训练大型模型,DeepSpeed 将基于 ZeRO 的数据并行与 NVIDIA Megatron-LM 模型并行相结合,在具有低带宽互连的 NVIDIA GPU 集群上(没有 NVIDIA NVLink 或 Infiniband),与仅对具有 15 亿参数的标准 GPT-2 模型使用 Megatron-LM 相比,DeepSpeed 将吞吐量提高了 3.75 倍。在具有高带宽互连的 NVIDIA DGX-2 集群上,对于 20 至 800 亿个参数的模型,速度要快 3 到 5 倍。这些吞吐量的提高来自 DeepSpeed 更高的内存效率以及使用较低程度的模型并行和较大的批处理量来拟合这些模型的能力。
    • 成本:提高吞吐量意味着大大降低训练成本,例如,要训练具有 200 亿个参数的模型,DeepSpeed 需要的资源是原来的 3/4。
    • 易用性:只需更改几行代码即可使 PyTorch 模型使用 DeepSpeed 和 ZeRO。与当前的模型并行库相比,DeepSpeed 不需要重新设计代码或重构模型,它也没有对模型尺寸、批处理大小或任何其它训练参数加以限制。对于参数多达 60 亿的模型,可以方便地使用由 ZeRO 提供的数据并行能力,而无需模型并行。而相比之下,对于参数超过 13 亿的模型,标准数据并行将耗尽内存。ZeRO 第二和第三阶段将进一步增加仅通过数据并行即可训练的模型大小。此外,DeepSpeed 支持 ZeRO 支持的数据并行与模型并行的灵活组合。

    更具体的介绍查看微软的博客:

    https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters

    展开全文
  • 国家高技术研究发展计划(“863”计划),是一项具有明确国家目标的国家科技计划,是发展高科技、实现产业化、建设创新国家的重大举措。“863”通信高技术丛书,是对通信信息领域的课题以及相关重大专项的成果总结...
  • EDGE技术的测试和研究

    2020-03-04 10:39:51
    EDGE作为介于现有第二移动通信系统第三移动通信系统之间的一种增强数据通信技术,它的引进必然会对现有的GSM网络带来正面的增益并为第三移动通信系统的实施进行一定的铺垫和准备。未来的移动数据业务主要...
  • 网站架构技术

    2016-10-09 21:00:53
    技术技术 企图用技术解决一切问题 大型网站架构模式 架构模式 分层 分割 分布式 分布式应用和服务 分布式静态资源 分布式数据和存储 分布式计算 集群 缓存 CDN 反向代理 ...
  • 本书共分为3部分,第一部分详细介绍了企业业务工程的原理、目的和帮助实现的信息技术,并讨论了业务蓝图、R/3参考模型和按需求设置;第二部分在销售、生产、采购、控制、财务、人力资源以及资产管理方面提供了大量的...
  • 针对含有离轴非球面的两镜光学系统,利用三阶矢量波像差理论建立了离轴抛物面主镜的波像差模型和系统内失调量波像差泽尼克多项式系数的关系模型。在对复杂光学系统的粗装调完成后,利用高精度的自准干涉检测以得到...
  • 根据对当前研究情况和动向的介绍,着重对分布式物联网网络管理模 、D NA功能模型的设计及原型的实现、D NA中性能监测和 QoS控制功能模型及其实现、物联网网络安全接入 认证进行了分析和讨论。最后介绍了基于位置...
  • 本模板基于DEDECms 5.7 设计,需要定制UTF-8或者GBK版本的请联系网匠营销网站的技术免费帮您转。 房地产企业代理公司网站织响应式织梦模板安装方法: 1、下载本源码到服务器。 2、解压下载的程序安装包,请将...
  • 在基于代理的模型EURACE @ Unibi中,我实现了技术前沿的范式转变-从缓慢的增长到快速的增长。 分析表明,技术变革的加速导致市场集中度的强劲增长。 将市场份额重新分配给一些大公司的动力是公司之间生产力和技能的...
  • 基于对差分进化算法的改进进行最优化测井解释,尤其是针对其早熟适用于无约束条件下寻优等缺点,采取复合算法生成子来避免早熟,又加入alpha约束来进行有约束条件下的寻优。在进行测井解释时,分析区域岩性,选取测...
  • 这项研究检查了IT-PRS设置中的学习曲线,以确定代理是否以不同的速率通过积累的经验来实现性能改进,以及信息技术如何在此设置中改变学习动力。 我们提出了一个分级的贝叶斯模型,该模型说明了不同的座席技能(域和...
  • 计算机通信交换技术

    2011-11-05 15:59:47
    1.2 ATMIP 4 1.3 IP交换 6 1.4 路由器IP交换 8 1.5 一个IP交换的标准 9 1.6 结论 10 第2章 TCP/IP、寻址和选路 12 2.1 TCP/IP的历史 12 2.2 TCP/IP体系结构和组成部分 13 2.3 IPv4头格式 15 2.4 IPv4寻址 16 2.4.1...
  •  本书是Java技术经典参考书,多年畅销不衰,第7版在保留以前版本风格的基础上,涵盖Java2开发平台标准版J2SE5.0的基础知识,主要内容包括面各对象程序设计、反射代理、接口内部类、事件监听器模型、使用Swing ...
  •  本书是Java技术经典参考书,多年畅销不衰,第7版在保留以前版本风格的基础上,涵盖Java2开发平台标准版J2SE5.0的基础知识,主要内容包括面各对象程序设计、反射代理、接口内部类、事件监听器模型、使用Swing ...
  •  本书是Java技术经典参考书,多年畅销不衰,第7版在保留以前版本风格的基础上,涵盖Java2开发平台标准版J2SE5.0的基础知识,主要内容包括面各对象程序设计、反射代理、接口内部类、事件监听器模型、使用Swing ...
  •  本书是Java技术经典参考书,多年畅销不衰,第7版在保留以前版本风格的基础上,涵盖Java2开发平台标准版J2SE5.0的基础知识,主要内容包括面各对象程序设计、反射代理、接口内部类、事件监听器模型、使用Swing ...
  •  本书是Java技术经典参考书,多年畅销不衰,第7版在保留以前版本风格的基础上,涵盖Java2开发平台标准版J2SE5.0的基础知识,主要内容包括面各对象程序设计、反射代理、接口内部类、事件监听器模型、使用Swing ...
  •  本书是Java技术经典参考书,多年畅销不衰,第7版在保留以前版本风格的基础上,涵盖Java2开发平台标准版J2SE5.0的基础知识,主要内容包括面各对象程序设计、反射代理、接口内部类、事件监听器模型、使用Swing ...
  •  本书是Java技术经典参考书,多年畅销不衰,第7版在保留以前版本风格的基础上,涵盖Java2开发平台标准版J2SE5.0的基础知识,主要内容包括面各对象程序设计、反射代理、接口内部类、事件监听器模型、使用Swing ...
  •  本书是Java技术经典参考书,多年畅销不衰,第7版在保留以前版本风格的基础上,涵盖Java2开发平台标准版J2SE5.0的基础知识,主要内容包括面各对象程序设计、反射代理、接口内部类、事件监听器模型、使用Swing ...
  •  本书是Java技术经典参考书,多年畅销不衰,第7版在保留以前版本风格的基础上,涵盖Java2开发平台标准版J2SE5.0的基础知识,主要内容包括面各对象程序设计、反射代理、接口内部类、事件监听器模型、使用Swing ...
  •  本书是Java技术经典参考书,多年畅销不衰,第7版在保留以前版本风格的基础上,涵盖Java2开发平台标准版J2SE5.0的基础知识,主要内容包括面各对象程序设计、反射代理、接口内部类、事件监听器模型、使用Swing ...

空空如也

空空如也

1 2 3 4 5 ... 13
收藏数 260
精华内容 104
关键字:

模型与代型技术