精华内容
下载资源
问答
  • HBase基本使用ppt

    2018-11-14 12:00:36
    传统的RDBMS关系型数据库(例如SQL)存储一定量数据时进行数据检索没有问题,可当数据量上升到非常巨大规模的数据(TB或PB)级别时,传统的RDBMS已无法支撑,这时候就需要一种新型的数据库系统更...我们可以选择HBase
  • HBase shell使用1.1 通用指令1.2 table操作指令1.3 数据操作指令2. Java API使用2.1 环境配置2.2 重要的类2.3 创建表Reference HBase使用有两种方式—— 使用HBase shell在命令行进行交互 使用Java API编写执行...

    HBase的使用有两种方式——

    • 使用HBase shell在命令行进行交互
    • 使用Java API编写执行程序供HBase运行

    本文对两种方法做简单的使用练习,主要参考HBase教程

    1. HBase shell使用

    HBase shell是可以与HBase通信的shell,HBase Shell给出了常用的指令,练习使用如下。

    启动HBase集群后,启动HBase shell,如下:

    使用help可以看到对HBase shell一些使用介绍

    1.1 通用指令

    (启动HBase集群后,使用)

    HBase shell提供几个获取常用信息的指令,如下:

    1. status,获取当前集群状态
    1. whoami,获取当前用户信息
    1. version,获取当前HBase版本
    1. table_help,可以看到如何操作table

    1.2 table操作指令

    1. 创建表create 'table_name', 'columnFamily',单引号不能省略,如下,创建emp表,有两个列族
    1. list查看已创建的表进行验证,或者用exists指令
    1. 使用alter修改列族的信息,包括修改单元格的版本数、删除列族等,比如修改版本数为3(默认为1)
    1. 增加列族,alter 'table_name', 'new_columnFamily_name'
    1. 删除列族,alter 'table_name', 'delete'=>'del_columnFamily_name'
    1. 使用describe查看表的信息如下,可以看到addressInfo列族的VERSION已改成3,增加了新列族,而删除的列族也不再存在
    1. 使用disable可以禁用表,enable可以启用表,禁用后只能通过listexists检测到表,不能操作
    8. 使用`drop`删除表,删除表之前必须先禁用表

    1.3 数据操作指令

    1. 使用put命令可以插入一个行到表中,put 'table_name', 'row1', 'colFamily:col', 'value'
    1. 使用get命令获取行的数据,如下:
    1. HBase可以保存一个数据的多个版本(不同时间戳),取决于所在列族设置的VERSIONS大小,如下例子:
      • 设置列族basicInfo的版本数为3,则可以保存一个数据的三个版本
      • 当用put命令更新同一行同一列的数据,保留最新的三个版本
      • 使用scan只能看到最新的一个,即下面的22
      • 使用get 'emp', 'Amy', {'COLUMN=>'basicInfo:age', VERSIONS=>3}
    1. delete指令删除特定单元格,可以看到Mike的gender列已被删除

    2. Java API使用

    HBase是用Java编写的,它提供Java API和HBase通信, Java API是与HBase通信的最快方法。

    使用Java API需要先导入hbase/lib下的jar包。

    Java API操作HBase一般包括几个步骤:设置conf、连接、获取admin、具体操作

    2.1 环境配置

    方法1:使用maven

    1. 安装Maven,参考ubuntu16.04安装maven
    2. 按照eclipse+HBASE开发环境搭建(已实践)配置并测试即可
      • 这里hadoop和hbase的配置文件只需要复制过来,不用再修改了
      • 若创建Maven项目后没有resources文件夹,可以自己添加,参考Maven项目创建后没有resource文件夹
      • 最后能跑博客的测试文件即为配置成功

    方法2:不使用maven

    跟上面那篇不一样,eclipse+HBASE开发环境搭建(已实践)

    2.2 重要的类

    HBaseAdmin是一个主要执行管理任务的类,使用这个类可以执行管理员任务

    Connection.getAdmin() //获取HBaseAdmin实例
        
    void createTable(HTableDescriptor desc) //创建一个新的表
    			
    void deleteColumn(byte[] tableName, String columnName) //从表中删除列
    			
    void deleteColumn(String tableName, String columnName) //删除表中的列
    			
    void deleteTable(String tableName) //删除表
    

    Descriptor类,包含一个HBase表的信息,如表的名字、所有列族的描述等。

    2.3 创建表

    1. 设置或获取conf,并连接HBase集群如下:
      • HBaseConfiguration.create()会读取文件夹中的配置文件,若不存在配置文件,则需要自己设置
      • ConnectionFactory.createConnection(conf),与hbase集群连接
    public class Operations {
      public static Configuration conf = null;
      public static Connection con = null;
      
      public static void main(String[] args) throws IOException{
          conf = HBaseConfiguration.create(); //read hbase-site.xml
          System.out.println(conf.get("hbase.zookeeper.quorum"));
          System.out.println(conf.get("hbase.rootdir"));
    
          con = ConnectionFactory.createConnection(conf); //connect to hbase
      }
    }
    
    1. 编写创建表格的函数,如下:
    public static void createTable(String tableName, String[] familys)throws IOException {
        HBaseAdmin admin = (HBaseAdmin) con.getAdmin();
        if (admin.tableExists(tableName)) {
            System.out.print("error, table already exists!");
        }
        else {
            HTableDescriptor tableDesc = 
                new HTableDescriptor(TableName.valueOf(tableName));
            for (int i = 0; i < familys.length; i++) {
                tableDesc.addFamily(new HColumnDescriptor(familys[i]));
            }
            admin.createTable(tableDesc);
            System.out.println("create table " + tableName + " successfully.");
        }
    }
    
    1. main中调用创建表格的函数如下:
    String[] familys = {"type", "address"};
    createTable("school", familys);
    
    1. 运行后结果如下:
    1. 查看web UI,可以看到表格已创建

    以上为Java API使用的一个例子,更详细的使用此处暂不涉及。

    本文主要对HBase的两种操作方式做简单使用,有一个初步认识,更详细的内容可能在之后的使用过程中进行学习。

    Reference

    1. HBase教程
    2. HBase 常用Shell命令
    3. HBase的Java API操作
    4. ubuntu16.04安装maven
    5. eclipse+HBASE开发环境搭建(已实践)
    6. 连接HBase的正确姿势
    展开全文
  • 根据个人的经验,总结出来的HBASE基本概念以及使用场景,原本用于内部分享
  • HBase Shell 基本使用

    万次阅读 2019-04-10 16:17:11
    本章, 我们主要了解下HBase Shell的基本使用. 基础知识 HBase是什么 在使用HBase之前, 我们先了解下HBase的几项基本知识. 与MySQL不同, HBase是面向列的数据库. 通常会将某些列存储在不同的文件内. 比如<id,...

    前言

    在上章, 我们尝试在本地安装了HBase. 本章, 我们主要了解下HBase Shell的基本使用.


    基础知识

    HBase是什么

    在使用HBase之前, 我们先了解下HBase的几项基本知识.

    • MySQL不同, HBase是面向列的数据库. 通常会将某些列存储在不同的文件内. 比如<id,name,age,sex>有时会被拆分成<id,name>``<id,age,sex>分布在不同的文件内.
    为什么要按列存储?

    个人认为有如下几点:

    • 文件过大时, 方便文件拆分.
    • 方便添加新列, 因为数据的格式又可能多样化, 传统的RMDB无法满足需求.
    • 列投影较为方便, 切查询时只需要去需要的列文件内读取, 提高加载速度.
    • 几张图看懂列式存储(转)
    HBase内数据基本类型

    在这里插入图片描述
    HBase内, 数据按照<行键><列族1: 列1-1, 列1-2><列族2: 列2-1, 列2-2>这样的类型进行存储的. 且, 其一, 其中行键的排列顺序是按照字典顺序排序的, 这点对于搜索非常重要. 其二, 同一行键的相同列族中列的值, 是可能变化的, 并且按照时间戳进行排序的.(当然, 有些数据在合并的时候, 会被删除.)
    其中, 相应的模块知识, 如下所示:

    • Row Key
      Row Key, 行键. 是用来检索记录的主键. 访问HBase Table中的行, 主要有三种方式. 单个row key进行访问/通过 row key 正则匹配 / 全表扫描. Row Key的值可以是任意字符串(最大长度为64KB, 实际使用经常为10-100byte) .其中, 行键的排列顺序是按照字典顺序排序的, 这点对于搜索非常重要. (PS: 字典顺序: 1 10 12 6 7 9 中, 11排在9之前.)
    • Columns Family
      Columns Family列族. HBase内的每个列, 都属于一个列族. 列族是Schema一部分(即,表设计), 而列不是(列可以在插入数据时, 动态添加). 列族是需要在使用之前进行提前定义的. 列名都以列族为前缀, 如course:namecourse:age.
    • Cell
      Cell, 数据单元. 有<row key, Columns Family, Column ,version>唯一确定的单元. Cell内的数据是没有类型的, 全部都是字节码进行存储的.
    • Time Stamp
      每个Cell存储一个数据的多个版本. 版本号, 通过时间戳进行索引(时间精确到毫秒). 时间戳类型为64位整数类型. 时间戳按照时间类型倒叙排序.
      回收版本机制: <保存数据的最后n个版本>/<保存最近一段时间的版本(如最近七天)>.

    HBase Shell相关命令

    hbaseshell命令描述
    create创建表< create ‘表名’, ‘列族名’, ‘列族名2’,‘列族名N’ >
    list查看所有表< list all >
    describe显示表详细信息< describe ‘表名’ >
    exists判断表是否存在< exists ‘表名’ >
    enable使表有效< enable ‘表名’ >
    disable使表无效< disable ‘表名’ >
    is_enabled判断是否启动表< is_enabled ‘表名’ >
    is_disabled判断是否禁用表< is_disabled ‘表名’ >
    count统计表中行的数量< count ‘表名’ >
    put添加记录< put ‘表名’, ‘row key’, ‘列族1 : 列’, ‘值’ >
    get获取记录(row key下所有)< get ‘表名’, ‘row key’>
    get获取记录(某个列族)< get ‘表名’, ‘row key’, ‘列族’>
    get获取记录(某个列)< get ‘表名’,‘row key’,‘列族:列’ >
    delete删除记录< delete ‘表名’, ‘row key’, ‘列族:列’ >
    deleteall删除一行< deleteall ‘表名’,‘row key’>
    drop删除表<disable ‘表名’> < drop ‘表名’>
    alter修改列族(column family)
    incr增加指定表,行或列的值
    truncate清空表逻辑为先删除后创建 <truncate ‘表明’>
    scan通过对表的扫描来获取对用的值<scan ‘表名’>
    tools列出hbase所支持的工具
    status返回hbase集群的状态信息
    version返回hbase版本信息
    exit退出hbase shell
    shutdown关闭hbase集群(与exit不同)

    详细操作

    • 登陆 hbase shell
    localhost:current Sean$ hbase shell
    Picked up JAVA_TOOL_OPTIONS: -Dfile.encoding=UTF-8
    2019-04-09 19:12:43,867 WARN  [main] util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    SLF4J: Class path contains multiple SLF4J bindings.
    SLF4J: Found binding in [jar:file:/Users/Sean/Software/HBase/hbase-1.2.11/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: Found binding in [jar:file:/Users/Sean/Software/hadoop/hadoop-2.7.5/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
    SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
    HBase Shell; enter 'help<RETURN>' for list of supported commands.
    Type "exit<RETURN>" to leave the HBase Shell
    Version 1.2.11, rca53d58f5b7abde0c189c9f78baf4246bddffac3, Fri Feb 15 18:12:16 CST 2019
    
    • 帮助help
    hbase(main):001:0> help
    HBase Shell, version 1.2.11, rca53d58f5b7abde0c189c9f78baf4246bddffac3, Fri Feb 15 18:12:16 CST 2019
    Type 'help "COMMAND"', (e.g. 'help "get"' -- the quotes are necessary) for help on a specific command.
    Commands are grouped. Type 'help "COMMAND_GROUP"', (e.g. 'help "general"') for help on a command group.
    
    COMMAND GROUPS:
      Group name: general
      Commands: status, table_help, version, whoami
    
      Group name: ddl
      Commands: alter, alter_async, alter_status, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, get_table, is_disabled, is_enabled, list, locate_region, show_filters
    
      Group name: namespace
      Commands: alter_namespace, create_namespace, describe_namespace, drop_namespace, list_namespace, list_namespace_tables
    
      Group name: dml
      Commands: append, count, delete, deleteall, get, get_counter, get_splits, incr, put, scan, truncate, truncate_preserve
    
      Group name: tools
      Commands: assign, balance_switch, balancer, balancer_enabled, catalogjanitor_enabled, catalogjanitor_run, catalogjanitor_switch, close_region, compact, compact_rs, flush, major_compact, merge_region, move, normalize, normalizer_enabled, normalizer_switch, split, trace, unassign, wal_roll, zk_dump
    
      Group name: replication
      Commands: add_peer, append_peer_tableCFs, disable_peer, disable_table_replication, enable_peer, enable_table_replication, list_peers, list_replicated_tables, remove_peer, remove_peer_tableCFs, set_peer_tableCFs, show_peer_tableCFs
    
      Group name: snapshots
      Commands: clone_snapshot, delete_all_snapshot, delete_snapshot, list_snapshots, restore_snapshot, snapshot
    
      Group name: configuration
      Commands: update_all_config, update_config
    
      Group name: quotas
      Commands: list_quotas, set_quota
    
      Group name: security
      Commands: grant, list_security_capabilities, revoke, user_permission
    
      Group name: procedures
      Commands: abort_procedure, list_procedures
    
      Group name: visibility labels
      Commands: add_labels, clear_auths, get_auths, list_labels, set_auths, set_visibility
    
    SHELL USAGE:
    Quote all names in HBase Shell such as table and column names.  Commas delimit
    command parameters.  Type <RETURN> after entering a command to run it.
    Dictionaries of configuration used in the creation and alteration of tables are
    Ruby Hashes. They look like this:
    
      {'key1' => 'value1', 'key2' => 'value2', ...}
    
    and are opened and closed with curley-braces.  Key/values are delimited by the
    '=>' character combination.  Usually keys are predefined constants such as
    NAME, VERSIONS, COMPRESSION, etc.  Constants do not need to be quoted.  Type
    'Object.constants' to see a (messy) list of all constants in the environment.
    
    If you are using binary keys or values and need to enter them in the shell, use
    double-quote'd hexadecimal representation. For example:
    
      hbase> get 't1', "key\x03\x3f\xcd"
      hbase> get 't1', "key\003\023\011"
      hbase> put 't1', "test\xef\xff", 'f1:', "\x01\x33\x40"
    
    The HBase shell is the (J)Ruby IRB with the above HBase-specific commands added.
    For more on the HBase Shell, see http://hbase.apache.org/book.html
    
    • 查看所有表list
    hbase(main):002:0> list
    TABLE
    0 row(s) in 0.2370 seconds
    
    => []
    
    • 创建表 create
    hbase(main):003:0> create 'user', 'info1','info2'
    0 row(s) in 1.6250 seconds
    
    => Hbase::Table - user
    hbase(main):004:0> list
    TABLE
    user
    1 row(s) in 0.0190 seconds
    
    => ["user"]
    
    
    • 描述表信息 describe
    hbase(main):005:0> describe 'user'
    Table user is ENABLED
    user
    COLUMN FAMILIES DESCRIPTION
    {NAME => 'info1', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE',
     MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION_SCOPE => '0'}
    {NAME => 'info2', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE',
     MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION_SCOPE => '0'}
    2 row(s) in 0.0390 seconds
    
    • exists表是否存在
    hbase(main):006:0> exists 'user'
    Table user does exist
    0 row(s) in 0.0130 seconds
    
    • drop删除表 - 失败
    # 删除失败
    hbase(main):007:0> drop 'user'
    
    ERROR: Table user is enabled. Disable it first.
    
    Here is some help for this command:
    Drop the named table. Table must first be disabled:
      hbase> drop 't1'
      hbase> drop 'ns1:t1'
    
    • drop删除表 -
    hbase(main):007:0> drop 'user'
    
    ERROR: Table user is enabled. Disable it first.
    
    Here is some help for this command:
    Drop the named table. Table must first be disabled:
      hbase> drop 't1'
      hbase> drop 'ns1:t1'
    
    
    hbase(main):008:0> disable 'user'
    0 row(s) in 2.2900 seconds
    
    hbase(main):009:0> is_enabled 'user'
    false
    0 row(s) in 0.0070 seconds
    
    hbase(main):010:0> is_disabled 'user'
    true
    0 row(s) in 0.0240 seconds
    
    • put/get 插入/获取
    hbase(main):015:0> put 'user','1234','info1:name','zhangsan'
    0 row(s) in 0.0620 seconds
    
    hbase(main):016:0> scan 'user'
    ROW                                            COLUMN+CELL
     1234                                          column=info1:name, timestamp=1554808804837, value=zhangsan
    1 row(s) in 0.0260 seconds
    
    hbase(main):017:0> put 'user','1234','info1:name','zhangsan1'
    0 row(s) in 0.0100 seconds
    
    hbase(main):018:0> scan 'user'
    ROW                                            COLUMN+CELL
     1234                                          column=info1:name, timestamp=1554808822676, value=zhangsan1
    1 row(s) in 0.0080 seconds
    
    hbase(main):019:0> put 'user','1234','info2:name','zhangsan1'
    0 row(s) in 0.0090 seconds
    
    hbase(main):020:0> put 'user','1234','info1:age','23'
    0 row(s) in 0.1280 seconds
    
    hbase(main):023:0> get 'user','1234'
    COLUMN                                         CELL
     info1:age                                     timestamp=1554808862052, value=23
     info1:name                                    timestamp=1554808822676, value=zhangsan1
     info2:name                                    timestamp=1554808839655, value=zhangsan1
    3 row(s) in 0.0280 seconds
    
    hbase(main):025:0> get 'user','1234','info1'
    COLUMN                                         CELL
     info1:age                                     timestamp=1554808862052, value=23
     info1:name                                    timestamp=1554808822676, value=zhangsan1
    2 row(s) in 0.0060 seconds
    
    hbase(main):026:0> get 'user','1234','info1:name'
    COLUMN                                         CELL
     info1:name                                    timestamp=1554808822676, value=zhangsan1
    1 row(s) in 0.0050 seconds
    
    
    • scan 扫描表
    hbase(main):021:0> scan 'user'
    ROW                                            COLUMN+CELL
     1234                                          column=info1:age, timestamp=1554808862052, value=23
     1234                                          column=info1:name, timestamp=1554808822676, value=zhangsan1
     1234                                          column=info2:name, timestamp=1554808839655, value=zhangsan1
    1 row(s) in 0.0300 seconds
    
    • count获取个数
    hbase(main):024:0> count 'user'
    1 row(s) in 0.0210 seconds
    
    => 1
    
    • 删除某列
    hbase(main):027:0> delete 'user','1234','info2:name'
    0 row(s) in 0.0320 seconds
    
    hbase(main):028:0> scan 'user'
    ROW                                            COLUMN+CELL
     1234                                          column=info1:age, timestamp=1554808862052, value=23
     1234                                          column=info1:name, timestamp=1554808822676, value=zhangsan1
    1 row(s) in 0.0140 seconds
    

    Reference

    [1]. 官方文档中文版
    [2]. HBase Shell命令大全
    [3]. HBase数据模型介绍
    [4]. HBase系列(一):HBase表结构及数据模型的理解

    展开全文
  • HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google...

    Hbase简介

    1.1什么是HBase

    HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。

    HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。

    HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable使用GFS作为其文件存储系统,HBASE利用Hadoop HDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigtable中的海量数据,HBASE同样利用Hadoop MapReduce来处理HBASE中的海量数据;Google Bigtable利用Chubby作为协同服务,HBASE利用Zookeeper作为协同服务。

    1.2 与传统数据库的对比

    1、传统数据库遇到的问题:

    1)数据量很大的时候无法存储;
    2)没有很好的备份机制;
    3)数据达到一定数量开始缓慢,很大的话基本无法支撑;

    2、HBASE优势:

    1)线性扩展,随着数据量增多可以通过节点扩展进行支撑;
    2)数据存储在hdfs上,备份机制健全;
    3)通过zookeeper协调查找数据,访问速度快。

    1.3 HBase集群中的角色

    • 1、一个或者多个主节点,Hmaster;

    • 2、多个从节点,HregionServer;

    • 3、HBase依赖项,zookeeper;

    2. HBase数据模型

    2.1 HBase的存储机制

    HBase是一个面向列的数据库,在表中它由行排序。表模式定义只能列族,也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续存储在磁盘上。表中的每个单元格值都具有时间戳。
    与nosql数据库一样,row key是用来表示唯一一行记录的主键,HBase的数据时按照RowKey的字典顺序进行全局排序的,所有的查询都只能依赖于这一个排序维度。访问HBASE table中的行,只有三种方式:

    1. 通过单个row key访问;

    2. 通过row key的range(正则)

    3. 全表扫描

    2.2 Row key

    行键(Row key)可以是任意字符串(最大长度是64KB,实际应用中长度一般为10-1000bytes),在HBASE内部,row key保存为字节数组。存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分排序存储这个特性,将经常一起读取的行存储放到一起。(位置相关性)

    2.3 Columns Family 列族

    列簇:HBASE表中的每个列,都归属于某个列族。列族是表的schema的一部分(而列不是),必须在使用表之前定义。列名都以列族作为前缀。例如courses:history,courses:math 都属于courses这个列族。

    2.4 Cell

    由{row key,columnFamily,version} 唯一确定的单元。cell中的数据是没有类型的,全部是字节码形式存储。

    关键字:无类型、字节码

    2.5 Time Stamp 时间戳

    HBASE中通过rowkey和columns确定的为一个存储单元称为cell。每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是64位整型。时间戳可以由HBASE(在数据写入时自动)赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显示赋值。如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。每个cell中,不同版本的数据按照时间倒序排序,即最新的数据排在最前面。

    为了避免数据存在过多版本造成的管理(包括存储和索引)负担,HBASE提供了两种数据版本回收方式。一是保存数据的最后n个版本,而是保存最近一段时间内的版本(比如最近7天)。用户可以针对每个列族进行设置。

    3.HBASE命令

    名称命令表达式
    查看hbase状态status
    创建表create ‘表名’,‘列族名1’,‘列族名2’,‘列族名N’
    查看所有表list
    描述表describe ‘表名’
    判断表存在exists ‘表名’
    判断是否禁用启用表is_enabled '表名 'is_disabled ‘表名’
    添加记录put ‘表名’,‘rowkey’,‘列族:列’,‘值’
    查看记录rowkey下的所有数据get ‘表名’,‘rowkey’
    查看所有记录scan ‘表名’
    查看表中的记录总数count ‘表名’
    获取某个列族get ‘表名’,‘rowkey’,‘列族:列’
    获取某个列族的某个列get ‘表名’,‘rowkey’,‘列族:列’
    删除记录delete ‘表名’,‘行名’,‘列族:列’
    删除整行deleteall ‘表名’,‘rowkey’
    删除一张表先要屏蔽该表,才能对该表进行删除第一步 disable ‘表名’,第二步 drop ‘表名’
    清空表truncate ‘表名’
    查看某个表某个列中所有数据scan ‘表名’,{COLUMNS=>‘列族名:列名’}
    更新记录就是重新一遍,进行覆盖,hbase没有修改,都是追加

    二级索引

    假如一张student表(id,name,age,salary)rowkey为id的话,我们没有在name上面建立索引,所以查询name=‘tom’ 的时候只能够全表扫描,如果此时我们将name字段建立一个索引,这里二级索引可以简单理解为一张索引表,建立索引之后再查name=xxx的时候,会先根据name的查找到该条数据,然后再根据该调数据的rowkey将这条数据完整的取出来。

    Hbase是不能构建二级索引的,需要借助于ES或者Phoenix来构建二级索引

    RowKey的设计

    加盐的方式

    加盐:把固定长度的随机数添加到rowkey的前面作为一个固定的前缀,存储的时候就是 固定长度的随机数+rowkey

    优点:通过随机数提高写的吞吐,并且保证数据在region是均匀分布的

    缺点:基于原有的rowkey进行查找时,无法知道随机数的前缀是什么,无法精准的定位,需要从每个region中去查找,这样必然增加读的开销

    总结:加盐的方式写的优势大于读的小

    Hash 的方式

    基于hash的方式作为rowkey的前缀,在算法的选择上面,选择同一rowkey的hash为一致的算法,查询的时候只要是知道rowkey就可以通过hash得到随机的前缀,从而得到该rowkey存储时候的形式来精准定位数据。

    优点:数据均匀分布到各个region中,能够有效的避免热点问题,并且天然支持get

    缺点:不利于scan操作,基于hash的方式进行存储的时候会将原来rowkey的顺序打乱,scan操作的时候需要从多个region中取数据。

    一个服务器管理的region大约在100-200个之间较伟合理

    参考自:牧梦者

    展开全文
  • HBase基本语法

    2020-09-24 19:20:37
    HBase基本语法HBase操作HBase基本命令用户权限管理表管理行管理列簇管理将文档数据导入HBase HBase操作 通过hbase shell进入 version – 查看版本 status – 查看集群状态 whoami – 查看当前有效用户名 help –...

    HBase操作

    通过hbase shell进入

    • version – 查看版本
      在这里插入图片描述
    • status – 查看集群状态
      在这里插入图片描述
    • whoami – 查看当前有效用户名
      在这里插入图片描述
    • help – 查看帮助命令

    HBase基本命令

    用户权限管理

    1、查看权限

    • 语法:user_permission [‘表名’…]
    • 例:查看customer表权限
      hbase(main)> user_permission 'customer'
      在这里插入图片描述

    2、分配权限

    • 语法 : grant ‘用户名’, ‘RWXCA’
    • 权限用五个字母表示: “RWXCA”.
      READ(‘R’), WRITE(‘W’), EXEC(‘X’), CREATE(‘C’), ADMIN(‘A’)
    • 例:给用户‘root’分配读写执行管理的权限,
      hbase(main)> grant 'root', 'RWXCA'
      在这里插入图片描述

    3、收回权限

    • 与分配权限类似,语法:revoke ‘用户名’ [,‘表名’…]

    表管理

    1、创建表

    • 语法:create ‘表名’,{NAME=>‘列簇名’},{NAME=>‘列簇名’}…
    • 例:创建表customer,列簇为addr、order
      hbase(main)> create 'customer',{NAME=>'addr'},{NAME=>'order'}
      在这里插入图片描述

    2、 删除表

    • 分两步:首先disable,然后drop
    • 语法:disable ‘表名’----> drop ‘表名’
    • 例:删除cust表
      hbase(main)> disable 'cust'
      hbase(main)> drop 'cust'
      在这里插入图片描述

    3、修改表名

    • 步骤:
      1、拍摄快照
      语法:snapshot ‘表名’,‘镜像名’
      例:hbase(main)> snapshot 'customer','temp'
      2、克隆快照,命名为新表名
      语法:clone_snapshot ‘镜像名’,‘新表名’
      例:hbase(main)> clone_snapshot 'temp','cust'
      3、删除快照
      语法:delete_snapshot ‘镜像名’
      例:hbase(main)> delete_snapshot 'temp'
      在这里插入图片描述
      在这里插入图片描述

    4、查看有哪些表
    hbase(main)> lis
    在这里插入图片描述

    行管理

    1、添加数据

    • 语法:put ‘表名’,‘行键’,‘列簇名:列名’,‘值’[,时间戳]
    • 例:
      hbase(main)> put 'customer','1','addr:city','montoreal'
      hbase(main)> put 'customer','1','addr:address','210021 xiaohang road'
      在这里插入图片描述

    2、修改数据

    • 语法与添加数据一致
    • 例:hbase(main)> put 'customer','1','addr:city','nanjing'
      在这里插入图片描述

    3、删除行

    • 可以单独删除行,行内数据全部删除
    • 语法:delete ‘表名’ , ‘行键’
    • 例:
      #删除第二行数据:hbase(main)> delete 'customer','2'
      #统计行数:hbase(main)> count 'customer'
      在这里插入图片描述

    列簇管理

    1、增加列簇

    • 语法:alter ‘表名’,NAME=>‘列簇名’
    • 例:hbase(main)> alter 'customer',NAME=>'sample'
      在这里插入图片描述

    2、删除列簇

    • 语法:alter ‘表名’,NAME=>‘列簇名’,METHOD=>‘delete’
    • 例:hbase(main)> alter 'customer',NAME=>'sample',METHOD=>'delete'
      在这里插入图片描述

    3、修改列簇

    • 步骤:先加,后删

    4、查询数据

    • a)查询某行记录
      语法:get ‘表名’, ‘行键’ [,‘列簇名’]
      例:hbase(main)> get 'customer','1','addr:city'
      在这里插入图片描述

    • b)扫描表
      语法:scan ‘表名’, {COLUMNS => ‘列簇名’, LIMIT => num}
      另外,还可以添加STARTROW、TIMERANGE和FITLER等高级功能
      例:
      hbase(main)> scan 'customer',{COLUMNS=>'addr:city'}
      在这里插入图片描述
      hbase(main)> scan 'customer',{LIMIT=>1}
      在这里插入图片描述

    将文档数据导入HBase

    步骤:

    • 1、HBase命令:
      ##创建表emp_basic
      hbase(main)> create 'emp_basic',{NAME=>'emp'},{NAME=>'time'}
      在这里插入图片描述

    • 2、linux命令:
      ##把文档上传HDFS
      hdfs dfs -put /root/emp_basic.csv /test/
      在这里插入图片描述
      ##通过hbase shell导入文档数据
      hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.columns="HBASE_ROW_KEY,emp:name,emp:job_title,emp:company,time:sDate,time:eDate" "emp_basic" /test/emp_basic.csv
      在这里插入图片描述

    • 3、HBase命令:
      ##查看文档是否导入成功
      hbase(main)> scan 'emp_basic'
      在这里插入图片描述

    展开全文
  • HBase基本使用

    2019-02-12 13:42:56
    HBase基本使用 (一) 数据结构 首先做一个简要的总结:HBase最基本的单位是列。一列或者多列形成行数据,并由唯一的rowkey确定;HBase的主要数据结构包括:表、行、列和单元格;其中列是可动态增加的;这是一个...
  • hbase基本介绍

    2021-03-01 23:02:17
    本文主要简单的介绍一下hbase数据库,主要是基本模型,与关系数据库的不同,主要应用场景。本文并未涉及hbase数据库的安装,具体安装过程网上都比较详细,也可参考《hbase权威指南》hbase是google公司bigtable的开源...
  • HBase 基本原理

    2018-06-14 11:49:07
    HBase 基本原理,出版于 2014,HBase is a NoSQL database that primarily works on top of Hadoop. HBase is based on the storage architecture followed by the BigTable. HBase inherits the storage design ...
  • HBase基本概念

    2016-06-20 14:23:33
    HBase基本概念
  • spark hbase shc基本使用

    千次阅读 2019-05-13 20:52:36
    shc测试环境的搭建参考:spark读写HBase使用hortonworks的开源框架shc(一):源码编译以及测试工程创建 读写HBase需要两个核心的元素: 用户描述数据结构的schema字符串 与schema字符串相对应的实体类 1. 定义...
  • Hbase0.98基本使用

    2017-03-21 22:15:09
    Hbase0.98基本使用1.表的创建表、插入操作hbase(main):003:0> create 'test1','data' #创建表 0 row(s) in 0.4000 seconds=> Hbase::Table - test1 hbase(main):004:0> put 'test1','row1','data:1','value1' 0
  • 文章目录hbase基本使用及重要特性1 启动hbase集群2 启动hbase的命令行客户端2.2 hbase命令行客户端操作2.2.1 建表2.2.2 插入数据3 查询方式一 :scan扫描3.2 查询方式二 : get单行数据4 删除4.1 删除一个kv 数据...
  • HBase基本操作

    2020-07-05 17:45:48
    HBase基本操作 1、HBase Shell操作 1、通用命令 //展示regionserver的task列表 hbase(main):000:0>processlist //展示集群的状态 hbase(main):000:0>status //table命令的帮助手册 hbase(main):000:0>table...
  • Hbase基本操作

    2018-11-15 16:52:21
    1.1 连接HBase 使用hbase shell命令来连接正在运行的Hbase实例,该命令位于HBase安装包下的bin/目录。HBase Shell提示符以&...输入help并按Enter键,可以显示HBase Shell的基本使用信息,和我...
  • Hbase基本语句

    千次阅读 2020-08-10 19:25:57
    1.1 基本操作 1.进入HBase客户端命令行 [@hadoop102 hbase]$ bin/hbase shell 2.查看帮助命令 hbase(main):001:0> help 3.查看当前数据库中有哪些表 hbase(main):002:0> list 1.2 表的操作 1....
  • HBase基本介绍

    千次阅读 2019-12-10 18:12:57
    1HBase基本介绍、 简介 hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来...
  • HBase基本命令

    2017-02-08 20:23:03
    两个月前使用hbase,现在最基本的命令都淡忘了,留一个备查~ 进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证...
  • 大数据HBase系列之HBase基本操作

    万次阅读 2018-11-01 18:04:52
    1. hbase命令 版本查看 hbase version 连接Zookeeper客户端 hbase zkcli 连接HBase客户端 hbase shell 2. CRUD 2.1 创建表 -- 语法:create '表名','列族名' create 'student','info' 2.2 显示所有表 ...
  • hbase基本命令

    2016-04-03 09:10:41
    如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户 hbase(main)> whoami 表的管理
  • Hbase基本用法简介

    2016-12-22 20:23:52
    Hbase shell 、Hbase api、Hbase 配置
  • HBase 基本概念

    千次阅读 2019-12-11 08:50:21
    HBase 基本介绍 简介 hbase是bigtable的开源java版本。 是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。 它介于nosql和RDBMS之间, 仅能通过主键(row key)和主键的range...
  • Hbase 基本操作类

    2014-07-16 15:19:01
    Hbase 基本操作类 static { //此处可以使用hbase的配置文件,也可以通过代码来实例化hbase连接 /* * Configuration HBASE_CONFIG = new Configuration(); * HBASE_CONFIG.set("hbase.zookeeper.quorum", ...
  • HBase基本操作 Java代码

    2016-02-15 17:18:24
    HBase基本操作 增删改查 java代码 要使用须导入对应的jar包
  • HBase基本shell命令.docx

    2021-05-25 17:36:20
    HBase基本shell命令.docx
  • hbase基本操作命令

    2018-11-23 00:28:18
    hbase基本命令操作 进入HBase客户端命令行 $ bin/hbase shell 查看帮助命令 hbase(main)&gt; help 查看当前数据库中有哪些表 hbase(main)&gt; list 表的操作 创建表 hbase(main)&gt; ...
  • Hbase基本知识介绍

    千次阅读 2019-04-22 19:54:29
    Hbase基本知识介绍1. Hbase简介1.1 什么是hbase1.2 与传统关系型数据库的对比1.3 Hbase架构2. Habse安装2.1 上传2.2 解压2.3 重命名2.4 修改环境变量2.5 修改配置文件2.6 分发到其他节点2.7 启动2.8 监控3. Hbase...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 64,338
精华内容 25,735
关键字:

hbase基本使用