精华内容
下载资源
问答
  • 个测试文件 log.data 大小为18.1M 2.存储格式对比 2.1 默认的 TextFile 默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,...

    1.准备工作

    找一个测试文件 log.data 大小为18.1M
    在这里插入图片描述

    2.存储格式对比

    2.1 默认的 TextFile

    默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。

    创建表,存储数据格式为TEXTFILE

    create table log_text1 (
    track_time string,
    url string,
    session_id string,
    referer string,
    ip string,
    end_user_id string,
    city_id string
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    STORED AS TEXTFILE ;
    

    向表中加载数据

    load data local inpath '/waq/log.data' into table log_text1 ;
    

    查看表中数据大小

    在这里插入图片描述

     hadoop fs -du -h /user/hive/warehouse/testgmall.db/log_text1;
    

    在这里插入图片描述

    2.2 ORC

    一个orc文件可以分为若干个Stripe
    一个stripe可以分为三个部分
    indexData:某些列的索引数据
    rowData :真正的数据存储
    StripFooter:stripe的元数据信息

    • Index Data:一个轻量级的index,默认是每隔1W行做一个索引。这里做的索引只是记录某行的各字段在Row Data中的offset。
    • Row Data:存的是具体的数据,先取部分行,然后对这些行按列进行存储。对每个列进行了编码,分成多个Stream来存储。
    • Stripe Footer:存的是各个stripe的元数据信息

    每个文件有一个File Footer,这里面存的是每个Stripe的行数,每个Column的数据类型信息等;每个文件的尾部是一个PostScript,这里面记录了整个文件的压缩类型以及FileFooter的长度信息等。在读取文件时,会seek到文件尾部读PostScript,从里面解析到File Footer长度,再读FileFooter,从里面解析到各个Stripe信息,再读各个Stripe,即从后往前读。

    创建表,存储数据格式为ORC

    create table log_orc(
    track_time string,
    url string,
    session_id string,
    referer string,
    ip string,
    end_user_id string,
    city_id string
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    STORED AS orc ;
    

    向表中加载数据

    insert into table log_orc select * from log_text1;
    

    查看表中数据大小

    在这里插入图片描述

     hadoop fs -du -h /user/hive/warehouse/testgmall.db/log_orc; 
    

    在这里插入图片描述

    2.3 Parquet

    Parquet文件是以二进制方式存储的,所以是不可以直接读取的,文件中包括该文件的数据和元数据,因此Parquet格式文件是自解析的。
    通常情况下,在存储Parquet数据的时候会按照Block大小设置行组的大小,由于一般情况下每一个Mapper任务处理数据的最小单位是一个Block,这样可以把每一个行组由一个Mapper任务处理,增大任务执行并行度。

    创建表,存储数据格式为parquet

    create table log_parquet(
    track_time string,
    url string,
    session_id string,
    referer string,
    ip string,
    end_user_id string,
    city_id string
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    STORED AS PARQUET ;
    

    向表中加载数据

    insert into table log_parquet select * from log_text1;
    

    查看表中数据大小

    在这里插入图片描述

    hadoop fs -du -h /user/hive/warehouse/testgmall.db/log_parquet;
    

    在这里插入图片描述

    2.4 存储文件的压缩比总结:

    ORC > Parquet > textFile

    2.5 存储文件的查询速度测试第一遍:

    TextFile

    select count(*) from log_text1;
    

    在这里插入图片描述

    ORC

    select count(*) from log_orc;
    

    在这里插入图片描述

    Parquet

    select count(*) from log_parquet;
    

    在这里插入图片描述

    2.5 存储文件的查询速度测试第二遍:

    TextFile

    在这里插入图片描述

    select count(*) from log_text1;
    

    ORC

    在这里插入图片描述

    select count(*) from log_orc;
    

    Parquet

    在这里插入图片描述

    select count(*) from log_parquet;
    

    2.6 存储文件的查询速度测试第三遍:

    TextFile

    在这里插入图片描述

    select count(*) from log_text1;
    

    ORC

    在这里插入图片描述

    select count(*) from log_orc;
    

    Parquet

    在这里插入图片描述

    select count(*) from log_parquet;
    

    存储文件的查询速度总结:

    TextFile > ORC > Parquet

    3. 存储和压缩结合

    3.1 非压缩的的ORC存储

    创建一个非压缩的的ORC存储方式

    create table log_orc_none(
    track_time string,
    url string,
    session_id string,
    referer string,
    ip string,
    end_user_id string,
    city_id string
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    STORED AS orc tblproperties ("orc.compress"="NONE");
    

    插入数据

    insert into table log_orc_none select * from log_text1;
    

    查看插入后数据

    在这里插入图片描述

    hadoop fs -du -h /user/hive/warehouse/testgmall.db/log_orc_none;
    

    在这里插入图片描述

    3.2SNAPPY压缩的ORC存储

    创建一个SNAPPY压缩的ORC存储方式

    create table log_orc_snappy(
    track_time string,
    url string,
    session_id string,
    referer string,
    ip string,
    end_user_id string,
    city_id string
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    STORED AS orc tblproperties ("orc.compress"="SNAPPY");
    

    插入数据

    insert into table log_orc_snappy select * from log_text1;
    

    查看插入后数据大小

    在这里插入图片描述

     hadoop fs -du -h /user/hive/warehouse/testgmall.db/log_orc_snappy;
    

    在这里插入图片描述

    默认创建的ORC存储方式,导入数据后的大小为:

    在这里插入图片描述
    比Snappy压缩的还小。原因是orc存储文件默认采用ZLIB压缩。比snappy压缩的小。

    存储方式和压缩总结:

    hive表的数据存储格式一般选择:orc或parquet。压缩方式一般选择snappy。

    展开全文
  • OriginPro 绘制柱状图(特别是用于对比实验时) 1. OriginPro 绘制柱状图 如图所示填充数据: 全选整个数据,选择导航中的 绘图,找到 柱状图,点击即可。 2. Origin绘制成的柱状图 对比方法1 现在假设有三名...

    OriginPro 绘制柱状图(特别是用于对比实验时)

    1. OriginPro 绘制柱状图

    1. 如图所示填充数据:
      在这里插入图片描述
    2. 全选整个数据,选择导航中的 绘图,找到 柱状图,点击即可。 在这里插入图片描述

    2. Origin绘制成组的柱状图

    对比方法1

    现在假设有三名学生,总共有三门学科,以及成绩。现在需要分别展示三名学生的成绩柱状图。
    在这里插入图片描述
    同样全选然后点击上面导航栏的绘图,选择 柱状图
    在这里插入图片描述

    对比方法2

    同样的数据,现在需要分别对每一门成绩进行对比。
    在这里插入图片描述
    在这里插入图片描述

    注意

    请对比上面两个绘制的图片,在分别对比三个学生的成绩的时候,纵轴导航的名字是 语文,这个地方需要手动更改,即双击 语文 两个字,然后进行更改。

    后面的分别对科目进行对比的实验中的纵轴就是这种方法改成 成绩 的。

    3. 绘制三维柱状图

    如果有两个输入变量,一个输出结果时,可以考虑使用三维柱状图。以下面例子为例。

    X=5 X=10
    Y=5 67 44
    Y=10 77 89

    填写数据后,如图所示:
    在这里插入图片描述

    在这里插入图片描述
    接着全选,绘制时选择 3D 中的 3D 条状图,就可以看到下面的效果了:
    在这里插入图片描述
    还有其他的一些属性设定,比如颜色,是否显示标签等等,需要自行根据需要进行调整。

    总结

    OriginPro 的使用比较简单,但是也需要耐心,大致了解一下套路基本上就没啥问题了。

    Smileyan
    2021.3.7 11:26

    展开全文
  • IPV6介绍-DNS配置-实验对比

    千次阅读 2020-08-20 17:35:10
    IPv6是英文“Internet Protocol Version 6”(互联网协议第6版)的缩写,是互联网工程任务(IETF)设计的用于替代IPv4的下一代IP协议,其地址数量号称可以为全世界的每粒沙子编上个地址 。 由于IPv4最大

    IPv6介绍-DNS配置-实验对比

    IPv6介绍

    IPv6是英文“Internet Protocol Version 6”(互联网协议第6版)的缩写,是互联网工程任务组(IETF)设计的用于替代IPv4的下一代IP协议,其地址数量号称可以为全世界的每一粒沙子编上一个地址 。
    由于IPv4最大的问题在于网络地址资源不足,严重制约了互联网的应用和发展。IPv6的使用,不仅能解决网络地址资源数量的问题,而且也解决了多种接入设备连入互联网的障碍 。
    互联网数字分配机构(IANA)在2016年已向国际互联网工程任务组(IETF)提出建议,要求新制定的国际互联网标准只支持IPv6,不再兼容IPv4。 ————来自百度百科

    IPv6公共DNS有啥用呢?
    用户配置IPv6公共DNS,能够降低延迟就近访问。
    有以下特点:1、方便;2、高效;3、安全;4智能解析

    DNS配置–配置步骤

    1、任务栏点击网络图标
    在这里插入图片描述
    2、打开网络和共享中心,点击更改适配器设置
    在这里插入图片描述
    3、双击本地连接——单击属性——双击(TCP/IPv6)
    在这里插入图片描述
    4、选择 IPv6 DNS 免费公共服务器,DNS配置
    在这里插入图片描述
    在这里插入图片描述

    实验对比

    配置完DNS真的快了嘛?做个试验看看。学校里的网是移动的,用360测网速50M。所以用360测试打开网页速度,对比哪家DNS配置后更快,或者是不配置也快?试验每次在配置完30s后,测试三组打开网页的速度,进行截图对比。
    未配置实验结果如下:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    还行,但是会有网页打不开的不稳定情况。

    国内 IPv6 DNS

    阿里 IPv6 DNS (Alidns)
    阿里云公共DNS已支持IPv6协议,成功国内首家向公众提供免费IPv4/v6公共解析服务的提供商。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    中国电信 IPv6 DNS
    如果用中国电信的宽带应该会自动分配这两个IP
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    下一代互联网北京研究中心
    Yeti DNS Project 注册的 IPv6 DNS 服务器
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    CNNIC IPv6 DNS 服务器
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    国内教育网 IPv6 DNS 服务器

    北京邮电大学 IPv6 DNS 服务器
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    上海交通大学 IPv6 DNS 服务器在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    中科院网络信息中心 IPv6 DNS 服务器
    Yeti DNS Project 注册的 IPv6 DNS 服务器
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    北京交通大学 IPv6 DNS 服务器
    Yeti DNS Project 注册的 IPv6 DNS 服务器
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    清华大学 IPv6 DNS 服务器
    Yeti DNS Project 注册的 IPv6 DNS 服务器在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    清华大学 TUNA 协会 IPv6 DNS 服务器

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    北京科技大学 IPv6 DNS 服务器
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    科技网 IPv6 DNS 服务器
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    国外知名公共 IPv6 DNS 服务器

    Google Public IPv6 DNS
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    Cloudflare IPv6 DNS
    在这里插入图片描述
    OpenDNS
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    Quad9 IPv6 DNS
    IBM 发起的 Quad9 提供的公共免费 IPv6 DNS.
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    Neustar UltraDNS IPv6
    Neustar UltraDNS 是美国信息服务公司 Neustar 提供的公共免费 DNS 服务.
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    结果分析

    个人感觉中科院和北交的 IPv6 公共DNS是相对稳定且较好的。

    展开全文
  • 可以理解为为:组件\tricks重要性测试、组件性能系统性分析、控制变量法、组件去除对比实验、性能敏感性测试、性能因子分析等 Ablation Studies 一些新颖的深度学习模型在论文中都会进行AblationStudy,这部分的...

    Ablation Study 用于检测深度学习/机器学习模型中各部分构件对于整体的重要性。
    可以理解为为:组件\tricks重要性测试、组件性能系统性分析、控制变量法、组件去除对比实验、性能敏感性测试、性能因子分析等

    Ablation Studies

    一些新颖的深度学习模型在论文中都会进行AblationStudy,这部分的主要意义在于系统性的移除模型中的各种组件/trick等因子或者是创新的方法,来探究各个因素对于模型整体贡献的强弱多寡, 找到对性能最主要的影响因素。


    例如在这篇论文中:
    在这里插入图片描述
    作者就针对自己提出的跳接层、特征注意力机制来分别进行研究,并分析了两种方法对于网络性能的重要性:
    在这里插入图片描述
    可以看到四种关键组件进行了9中不同的组合,在没有任何创新加入的时候,模型的PSNR只有28.45,而长跳接提升了0.33,短跳接提升了0.36,长短链接一起提升了0.41;而特征注意力则单独共享了0.06,与长链接配合提升了0.4(这一看到了长链接更重要的作用了),倒数第二列则与长短跳接结合,得到了0.55的提升,说明长短跳接组合比长链接好。最后再加上长连接又提升了0.06。


    所以从消融性分析/组件性能测试中,可以控制各个潜在的影响因素,以观察他们对于整体表现的影响,并从中找出最为重要的提升组件。同时也可以为你找出一些对模型性能影响微乎其微的模块,以便简化模型提高效率。


    ref:
    https://www.quora.com/In-the-context-of-deep-learning-what-is-an-ablation-study
    https://blog.csdn.net/Julialove102123/article/details/88996478
    https://www.jianshu.com/p/2ba896c1a306
    https://www.zhihu.com/question/60170398

    在这里插入图片描述
    pic from pexels.com

    展开全文
  • 抱着好奇的心理,简单进行了一组对比实验来粗略观察一下。具体实践如下: # !/usr/bin/env python # -*- coding:utf-8 -*- ''' __Author__:沂水寒城 功能: 比较python内置的max()和min()方...
  • 数字电子技术 实验一

    千次阅读 2019-08-03 19:42:48
    实验一 实验目的 学习multisim仿真软件的基本操作和分析方法 使用multisim对数字电路进行功能验证 二、实验内容 利用基本逻辑门对半加器进行电路设计和仿真 验证译码器74LS138N的逻辑功能 三、实验步骤 1. ...
  • 0 写在前面(数据集和源代码)本文章...一共有四个代码文件,分别是Kmeans、Kmeans++、Birch和KNN算法,四个算法对同个数据集聚类分析进行对比试验。(本代码是本人自己书写,全部可用!)1 引言近年来,机器学习...
  • 线性方程6种数值解法的对比研究

    千次阅读 多人点赞 2015-10-30 08:45:56
    线性方程 6 种数值解法的对比研究 Gauss消去法、LU分解法、Jacobi迭代法、Gauss-Seidel迭代法、超松弛(SOR)迭代法及共轭迭代法的源程序; 通过实际计算,进一步了解各种方法的优缺点,选择合适的数值方法。 分别...
  • 计算机组成原理实验报告静态随机存储器

    万次阅读 多人点赞 2019-05-22 22:21:22
    实验目的与要求 实验目的:掌握静态随机储存器RAM工作特性和数据的读写方法。 实验要求: 给存储器的00H、01H、02H、03H、04H地址单元中写入数据11H、12H、13H、14H、15H 依次读出第00、01、02、03、04号单元中...
  • 半加器电路是指对两个输入数据位相加,输出个结果位和进位,没有进位输入的加法器电路。 是实现两个位二进制数的加法运算电路。 全加器 full adder 用门电路实现两个二进制数相加并求出和的组合线路,称为...
  • 网络安全实验七:防火墙实验

    千次阅读 2019-12-16 17:40:40
    班级 软件工程17-1 学号 31720520518*** 姓名 路向江 同组实验者 路向江的儿子宴鸡鹏 实验名称 防火墙实验 日期 2019年12月16日星期 实验目的: 通过实验深入理解防火墙的功能和工作原理 熟悉天网...
  • 语言模型实验目的实验内容数据集Example: (每行数据是段对话,句子间用__eou__分隔)实验环境欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何...
  • Introduction Google是个数据驱动型公司,这意味着所有对用户的...在web的语境下,个实验是由股流量(比如,用户的请求)和在这股流量上进行的相对对比实验的修改组成的。修改包括用户可见的修改(比如,修...
  • 实验组: 施以新模型的训练集合; 对照: 施以旧模型的训练集合; 划分原则: 分离目标群体,然后将目标群体对半分开,一半做实验组,一半做对照; 用个例子演示划分: 问题需求:利用A/B测试验证在特定群体...
  • 1.引言 我们在生活中非常需要去比较两组数据是不是一样。比如说你对你的客户进行了两次...我们需要找出第一组中与第二组中的不一样的数据。方法如下。 方法: 用这个 =IF(COUNTIFS(A:A, E,B:B, F,C:C, G)>0,"","不
  • 计算机组成原理实验:微程序控制实验

    千次阅读 多人点赞 2021-02-07 15:20:32
    实验名称: 微程序控制实验 二、实验目的: (1)掌握微程序控制器的组成原理。 (2)掌握微程序的编制、写入,观察微程序的运行过程。 三、实验要求: 通过个微程序控制程序实验,了解微程序控制的的组成原理...
  • 实验流程如下: 1.将内核压缩包linux-4.10.14.tar.xz(这个根据你实验年代更新内核包,个人实验指导书提供的是2.0版本的,无法通过,所以提倡用新一点的版本,比如这里的4.10.14)放入Ubuntu系统 2.把压缩包解压缩...
  • 操作系统实验一(进程调度算法)

    千次阅读 多人点赞 2019-12-07 20:16:44
    实验一 进程调度算法 实验目的  用高级语言编写和调试个进程调度程序,以加深对进程的概念及进程调度算法的理解. 二、实验指导 设计个有 N个进程共行的进程调度程序。  进程调度算法:分别采用先来先服务...
  • 实验目的:掌握选择排序、冒泡排序、合并排序、快速排序、归并排序的算法原理分析不同排序算法的时间效率和时间复杂度,以及理论值与实测数据的对比分析。、冒泡排序算法伪代码:for i=1 to n for j=0 to n-i ...
  • CCNP路由实验之十 播(多播)

    万次阅读 2014-07-29 08:32:13
     CCNP路由实验之十 播(多播) 单播(Unicast):网络节点之间的通信通讯的模式是“”的,此时信息的接收和传递只在两个节点之间进行。例如,你在收发电子邮件、浏览网页时,必须与邮件服务器、Web...
  • 实验二 分类算法实验

    万次阅读 2017-12-24 16:32:06
    实验目的1.巩固4种基本的分类算法的算法思想:朴素贝叶斯算法,决策树算法,人工神经网络,支持向量机算法; 2.能够使用现有的分类器算法代码进行分类操作 3.学习如何调节算法的参数以提高分类性能;二、实验的...
  • Kafka、RabbitMQ、RocketMQ等 消息中间件 介绍和对比

    万次阅读 多人点赞 2019-09-05 17:59:00
    文章目录1、前言2、概念2.1、MQ简介2.2、...3.1、Kafka3.2、RabbitMQ3.3、RocketMQ4、测试4.1、测试目的4.2、测试场景4.2.1、Kafka4.2.2、RocketMQ4.2.3、RabbitMQ4.3、测试结论5、消息队列优点对比5.1、各个消息队...
  • 继师兄详细地讲述这个思路之后,我进行个归纳总结(师兄说,首先要建立个思想上的流程,再来纠结软件、命令这些细节!!!!!!)  首先你得了解 raw_data / 参考基因 .fa / 注释文件 .gtf / 索引文件 ...
  • 、fMRI介绍及实验设计

    千次阅读 2019-06-27 14:50:22
    (4)实验变量对比(同一实验不同变量或者其他) 实验设计时,实验流程整体分为三部分:块设计,事件相关设计,混合设计。 块设计(block designs):将相同条件的几个行为实验安排在一起。 形式: 静息-...
  • Google 重叠实验框架:更多,更好,更快地实验 发表于2015-01-09 16:21| 6559次阅读| 来源火光摇曳| 3 条评论| 作者lexqu(屈伟) ...实验流量就是资源, 如果有千个人同时在线上做对照实验, 资源如何分配
  • 算法系列之二十一:实验数据与曲线拟合

    万次阅读 多人点赞 2013-10-16 22:17:15
    曲线拟合(Curve Fitting)的数学定义是指用连续曲线近似地刻画或比拟平面上一组离散点所表示的坐标之间的函数关系,是一种用解析表达式逼近离散数据的方法。曲线拟合通俗的说法就是“拉曲线”,也就是将现有数据透过...
  • 计算机网络实验rdt实验

    千次阅读 2017-06-26 15:37:31
    、 实验目的 熟悉并掌握各种不同rdt协议的运行环境和协议性能。 二、实验原理  可靠数据传输:提供给上层实体的服务抽象是,数据可以通过条可靠的信道进行传输。不过由于下层协议不一定可靠,所以就有问题...
  • SLAM领域著名实验室 1. 苏黎世联邦理工学院 2. 明尼苏达大学 3. 慕尼黑工业大学 4. 香港科技大学 5. 浙江大学 6. 武汉大学 7. 中科院自动化研究所国家模式识别实验室Robot Vision Group 8. 清华大学自动化系...
  • 科学研究设计五:实验设计

    千次阅读 2017-11-18 08:41:43
    如何做科学研究的实验设计
  • 于是制定如下方案,将镜头对着实验室窗外,配置IPC每分钟截一张1920x1080的jpeg图片,上传到实验室的FTP,拍摄天,这样算来可以得到60x24=1440张图片,然后以25fps播放,这样,时长就是57.6秒,不到1分钟记录下...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 69,231
精华内容 27,692
关键字:

一组对比实验