精华内容
下载资源
问答
  • ORC编程语言结构化并行编程 德克萨斯大学奥斯汀分校 适用于Orc信息库的自述文件 欢迎! 该存储库包括Orc编程语言的文档,实现,工具,库,测试和示例。 Orc可以以几种不同的方式使用: 网络内浏览器界面 Eclipse ...
  • orc

    2021-03-26 14:12:45
    ORC是一种专为Hadoop工作负载设计的自我描述类型感知列式文件格式。 它针对大型流读取进行了优化,但是集成了对快速查找所需行的支持。 以列格式存储数据使阅读器只能读取,解压缩和处理当前查询所需的值。...
  • 基于 Apache ORC 最新分支1.7源码编译的 orc-tools-1.7.0-SNAPSHOT-uber.jar,主要为 ORC 的 一个 Java 工具包,工具使用文档可以看到官方文档https://orc.apache.org/docs/java-tools.html,支持 meta、data、scan...
  • ORC是一种专为Hadoop工作负载设计的自描述类型感知列式文件格式。 它针对大型流读取进行了优化,但具有集成支持,可快速查找所需的行。 以列格式存储数据使阅读器仅可以读取,解压缩和处理当前查询所需的值。 由于...
  • orc文字识别免费版

    2019-01-29 15:07:53
    orc文字识别免费版,识别率较高,可以作为离线本地文件处理辅助工具
  • 合并hdfs小文件工具(orc和parquet) Hadoop。 合并hdfs小文件工具(orc和parquet) 。 合并hdfs上的parquet 和orc格式小文件小工具 merge files parquet orc
  • 一个跨平台(Windows,MAC,Linux)桌面应用程序,用于查看常见的大数据二进制格式,例如Parquet,ORC,Avro等。支持本地文件系统,HDFS,AWS S3等。添加基本数据分析功能,例如聚合操作和检查数据比例。 请注意,...
  • ORC 格式文件的工具类,可以用于写hive orc 的格式,
  • 将科学论文转换为S2ORC JSON 该项目是的一部分。 对于S2ORC,我们使用Grobid将自定义的TEI.XML转换为JSON解析器,从而将PDF转换为JSON。 此处提供了TEI.XML到JSON解析器( pdf2json )。 我们还处理来自arXiv的...
  • 可以用于OCR 识别图片的文件,转换成文字,将pdf等文件转换为word文件等等。
  • hive-orc-2.1.1-cdh6.1.1.jar

    2021-04-02 09:29:13
    替换后的hive-orc-2.1.1-cdh6.1.1.jar包
  • tesseract基于java的ORC图片文字识别,可以对图片的文字直接识别,工程为java工程直接导入即可
  • 文字识别软件天若ORC.rar
  • Dancing Orc-开源

    2021-05-09 06:25:37
    DOrc是基于客户端/服务器体系结构的媒体后台驻留程序,使用UDP作为累积手段。 DOrc被设计为轻巧的,但能够使用非交互式媒体播放器(例如mpg123)播放音乐文件并提供用户界面。
  • ORC识别(内附源码)

    2019-08-15 22:36:20
    ORC识别(内附源码) 附: 根据二○○二年一月一日《计算机软件保护条例》规定:为了学习和 研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软 件等方式使用软件的,可以不经软件著作权人许可,不向其...
  • ORC搜狗识别接口源码

    2018-01-13 12:01:43
    搜狗图片文字识别.e 抓取搜狗输入法的ORC,无限调用识别,无限制.下载即可使用.其他语言通用。
  • 一、什么是orc? 引用百度百科的介绍,指利用光学字符识别(ORC全称:Optical Character Recognition)技术,将图片、照片上的文字内容,直接转换为可编辑文本,支持JPG、PNG、GIF、BMP、DOC等图片格式。简单一句话,...
  • DFIR ORC 文献资料 建造 要求 使用此Visual Studio> = 2017或使用 Kitware的CMake> = 3.12或Visual Studio 2017集成版本 LLVM的Clang格式> = 8.0.0或Visual Studio 2019集成版本 注意:Visual Studio 2019 16.3(和...
  • ORC-OpenMP是ORC的OpenMP补丁程序包,它使ORC成为Linux / IA-64的OpenMP编译器。 它旨在为进一步研究OpenMP和其他与HPC相关的主题提供基础研究环境。
  • Orc识图V2.8 .exe

    2019-09-06 12:08:38
    Orc识图V2.8 .exe识别图片转文字是一款功能强大、使用简单的ocr图片转文字识别软件,有时候我们会到网上找资料,可是找到的确是图片,图片的文字不能复制,那么我们就可以借助这款ocr图片转文字识别软件了!...
  • orc-源码

    2021-03-06 15:17:31
    orc
  • ORC的优点 The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files ...

    首发于: https://www.jwldata.com/archives/134.html

    ORC的优点

    The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performance when Hive is reading, writing, and processing data.

    Compared with RCFile format, for example, ORC file format has many advantages such as:

    • a single file as the output of each task, which reduces the NameNode’s load
    • Hive type support including datetime, decimal, and the complex types (struct, list, map, and union)
    • light-weight indexes stored within the file
      • skip row groups that don’t pass predicate filtering
      • seek to a given row
    • block-mode compression based on data type
      • run-length encoding for integer columns
      • dictionary encoding for string columns
    • concurrent reads of the same file using separate RecordReaders
    • ability to split files without scanning for markers
    • bound the amount of memory needed for reading or writing
    • metadata stored using Protocol Buffers, which allows addition and removal of fields

    ORC文件结构

    ORC文件由stripe,file footer,postscript组成。

    • file footer
      contains a list of stripes in the file, the number of rows per stripe, and each column’s data type. It also contains column-level aggregates count, min, max, and sum.
    • postscript
      holds compression parameters and the size of the compressed footer.
    • stripe
      each stripe in an ORC file holds index data, row data, and a stripe footer.
      index data includes min and max values for each column and the row positions within each column.
      stripe footer contains a directory of stream locations.
      row data is used in table scans.

    Hive Table properties

    The parameters placed in the TBLPROPERTIES.

    KeyDefaultNotes
    orc.compressZLIBhigh level compression = {NONE, ZLIB, SNAPPY}
    orc.compress.size262,144compression chunk size(number of bytes), 0.25MB
    orc.stripe.size67,108,864memory buffer in bytes for writing(number of bytes), 64MB
    orc.row.index.stride10,000number of rows between index entries
    orc.create.indextruecreate indexes?
    orc.bloom.filter.columns””comma separated list of column names
    orc.bloom.filter.fpp0.05bloom filter false positive rate (must >0.0 and <1.0)

    创建ORC表

    CREATE TABLE IF NOT EXISTS bank.account_orc (
      `id_card` int,
      `tran_time` string,
      `name` string,
      `cash` int
      )
    partitioned by(ds string)
    stored as orc;
    

    不加orc.compression,默认为ZLIB压缩。另外,还支持设置orc.compress为NONE, Snappy。

    查询ORC建表语句

    SHOW CREATE TABLE bank.account_orc;

    CREATE TABLE `bank.account_orc`(
      `id_card` int, 
      `tran_time` string, 
      `name` string, 
      `cash` int)
    PARTITIONED BY ( 
      `ds` string)
    ROW FORMAT SERDE 
      'org.apache.hadoop.hive.ql.io.orc.OrcSerde' 
    STORED AS INPUTFORMAT 
      'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' 
    OUTPUTFORMAT 
      'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
    LOCATION
      'hdfs://nameservice1/user/hive/warehouse/bank.db/account_orc'
    TBLPROPERTIES (
      'transient_lastDdlTime'='1627435885')
    

    往ORC表插入样本数据

    INSERT INTO bank.account_orc partition(ds='2020-09-21') values (1000, '2020-09-21 14:30:00', 'Tom', 100);
    INSERT INTO bank.account_orc partition(ds='2020-09-20') values (1000, '2020-09-20 14:30:05', 'Tom', 50);
    INSERT INTO bank.account_orc partition(ds='2020-09-20') values (1000, '2020-09-20 14:30:10', 'Tom', -25);
    INSERT INTO bank.account_orc partition(ds='2020-09-21') values (1001, '2020-09-21 15:30:00', 'Jelly', 200);
    INSERT INTO bank.account_orc partition(ds='2020-09-21') values (1001, '2020-09-21 15:30:05', 'Jelly', -50);
    

    查询底层文件

    [root@jwldata.com ~]# hadoop fs -ls /user/hive/warehouse/bank.db/account_orc/ds=2020-09-20                     
    Found 2 items
    -rwxrwx--x+  3 hive hive        519 2021-07-28 09:33 /user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0
    -rwxrwx--x+  3 hive hive        519 2021-07-28 09:34 /user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0_copy_1
    [root@jwldata.com ~]# 
    [root@jwldata.com ~]# hadoop fs -ls /user/hive/warehouse/bank.db/account_orc/ds=2020-09-21
    Found 3 items
    -rwxrwx--x+  3 hive hive        516 2021-07-28 09:32 /user/hive/warehouse/bank.db/account_orc/ds=2020-09-21/000000_0
    -rwxrwx--x+  3 hive hive        528 2021-07-28 09:34 /user/hive/warehouse/bank.db/account_orc/ds=2020-09-21/000000_0_copy_1
    -rwxrwx--x+  3 hive hive        528 2021-07-28 09:35 /user/hive/warehouse/bank.db/account_orc/ds=2020-09-21/000000_0_copy_2
    

    查询ORC文件的元数据

    hive --orcfiledump hdfs:///user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0

    [root@jwldata.com ~]# hive --orcfiledump hdfs:///user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0
    Structure for hdfs:///user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0
    File Version: 0.12 with HIVE_8732
    21/07/28 09:52:12 INFO orc.ReaderImpl: Reading ORC rows from hdfs:/user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0 with {include: null, offset: 0, length: 9223372036854775807}
    Rows: 1
    Compression: ZLIB
    Compression size: 262144
    Type: struct<_col0:int,_col1:string,_col2:string,_col3:int>
    
    Stripe Statistics:
      Stripe 1:
        Column 0: count: 1 hasNull: false
        Column 1: count: 1 hasNull: false min: 1000 max: 1000 sum: 1000
        Column 2: count: 1 hasNull: false min: 2020-09-20 14:30:05 max: 2020-09-20 14:30:05 sum: 19
        Column 3: count: 1 hasNull: false min: Tom max: Tom sum: 3
        Column 4: count: 1 hasNull: false min: 50 max: 50 sum: 50
    
    File Statistics:
      Column 0: count: 1 hasNull: false
      Column 1: count: 1 hasNull: false min: 1000 max: 1000 sum: 1000
      Column 2: count: 1 hasNull: false min: 2020-09-20 14:30:05 max: 2020-09-20 14:30:05 sum: 19
      Column 3: count: 1 hasNull: false min: Tom max: Tom sum: 3
      Column 4: count: 1 hasNull: false min: 50 max: 50 sum: 50
    
    Stripes:
      Stripe: offset: 3 data: 53 rows: 1 tail: 65 index: 136
        Stream: column 0 section ROW_INDEX start: 3 length 11
        Stream: column 1 section ROW_INDEX start: 14 length 27
        Stream: column 2 section ROW_INDEX start: 41 length 45
        Stream: column 3 section ROW_INDEX start: 86 length 29
        Stream: column 4 section ROW_INDEX start: 115 length 24
        Stream: column 1 section DATA start: 139 length 7
        Stream: column 2 section DATA start: 146 length 22
        Stream: column 2 section LENGTH start: 168 length 6
        Stream: column 3 section DATA start: 174 length 6
        Stream: column 3 section LENGTH start: 180 length 6
        Stream: column 4 section DATA start: 186 length 6
        Encoding column 0: DIRECT
        Encoding column 1: DIRECT_V2
        Encoding column 2: DIRECT_V2
        Encoding column 3: DIRECT_V2
        Encoding column 4: DIRECT_V2
    
    File length: 519 bytes
    Padding length: 0 bytes
    Padding ratio: 0%
    

    查询ORC文件的数据

    hive --orcfiledump -d hdfs:///user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0

    [root@jwldata.com ~]# hive --orcfiledump -d hdfs:///user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0
    21/07/28 09:53:08 INFO orc.ReaderImpl: Reading ORC rows from hdfs:/user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0 with {include: null, offset: 0, length: 9223372036854775807}
    {"_col0":1000,"_col1":"2020-09-20 14:30:05","_col2":"Tom","_col3":50}
    [root@jwldata.com ~]# 
    [root@jwldata.com ~]# hive --orcfiledump -d hdfs:///user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0_copy_1
    21/07/28 09:53:50 INFO orc.ReaderImpl: Reading ORC rows from hdfs:/user/hive/warehouse/bank.db/account_orc/ds=2020-09-20/000000_0_copy_1 with {include: null, offset: 0, length: 9223372036854775807}
    {"_col0":1000,"_col1":"2020-09-20 14:30:10","_col2":"Tom","_col3":-25}
    

    创建ORC表+Snappy压缩

    CREATE TABLE IF NOT EXISTS bank.account_orc_snappy (
      `id_card` int,
      `tran_time` string,
      `name` string,
      `cash` int
      )
    partitioned by(ds string)
    stored as orc
    TBLPROPERTIES ("orc.compression"="SNAPPY");
    

    查询ORC带Snappy压缩的建表语句

    SHOW CREATE TABLE bank.account_orc_snappy;

    CREATE TABLE `bank.account_orc_snappy`(
      `id_card` int, 
      `tran_time` string, 
      `name` string, 
      `cash` int)
    PARTITIONED BY ( 
      `ds` string)
    ROW FORMAT SERDE 
      'org.apache.hadoop.hive.ql.io.orc.OrcSerde' 
    STORED AS INPUTFORMAT 
      'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' 
    OUTPUTFORMAT 
      'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
    LOCATION
      'hdfs://nameservice1/user/hive/warehouse/bank.db/account_orc_snappy'
    TBLPROPERTIES (
      'orc.compression'='SNAPPY', 
      'transient_lastDdlTime'='1627542655')
    

    参考文档

    • https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
    • https://orc.apache.org/specification/ORCv1/
    • https://blog.csdn.net/dabokele/article/details/51542327
    • https://blog.csdn.net/dabokele/article/details/51813322

    欢迎关注我的微信公众号“九万里大数据”,原创技术文章第一时间推送。
    欢迎访问原创技术博客网站 jwldata.com,排版更清晰,阅读更爽快。

    展开全文
  • ORC文字识别

    2018-03-16 10:09:25
    一键扫描你想要识别的东西.拥有自定义快捷键,有着多种扫描引擎,任你挑选.识别精确快速
  • ML_ORC 机器学习实现光学字符识别 技术 语言:Java 开发环境:Eclipse 系统:Windows 简介 机器学习实现光学字符识别
  • 混合工质组分对ORC系统热力性能的影响,莫依璃,赵良举,为深度利用140℃工业余热,提高混合工质有机朗肯循环(ORC)系统热力性能,采用R245fa分别与R141b、DME、R601a混合形成三组混合工质,以�
  • 超强orc识别软件 6.0 破解版.zip 电脑山用的,安卓手机推荐扫描大师
  • Android orc

    2016-03-21 11:11:40
    android orc

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 19,552
精华内容 7,820
关键字:

Orc