您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

[HBase]数据模型(逻辑结构)

2024/3/22 2:15:12发布16次查看
[hbase]数据模型(逻辑结构) hbase以表的形式存储数据。表由行和列族组成。列划分为若干个列族(row family),其逻辑视图如下: 下面分别说说几个关键概念: 1)行键(rowkey) -- 行键是字节数组, 任何字符串都可以作为行键; -- 表中的行根据行键进行排序,
[hbase]数据模型(逻辑结构)
hbase以表的形式存储数据。表由行和列族组成。列划分为若干个列族(row family),其逻辑视图如下:
下面分别说说几个关键概念:
1)行键(rowkey)
-- 行键是字节数组, 任何字符串都可以作为行键;
-- 表中的行根据行键进行排序,数据按照row key的字节序(byte order)排序存储;
-- 所有对表的访问都要通过行键 (单个rowkey访问,或rowkey范围访问,或全表扫描)
2)列族(columnfamily)
-- cf必须在表定义时给出
-- 每个cf可以有一个或多个列成员(columnqualifier),列成员不需要在表定义时给出,新的列族成员可以随后按需、动态加入
-- 数据按cf分开存储,hbase所谓的列式存储就是根据cf分开存储(每个cf对应一个store),这种设计非常适合于数据分析的情形
3)时间戳(timestamp)
-- 每个cell可能又多个版本,它们之间用时间戳区分
4)单元格(cell)
-- cell 由行键,列族:限定符,时间戳唯一决定
-- cell中的数据是没有类型的,全部以字节码形式存贮
5)区域(region)
-- hbase自动把表水平(按row)划分成多个区域(region),每个region会保存一个表里面某段连续的数据;
-- 每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region;
-- 当table中的行不断增多,就会有越来越多的region。这样一张完整的表被保存在多个region 上。
-- hregion是hbase中分布式存储和负载均衡的最小单元。最小单元表示不同的hregion可以分布在不同的hregionserver上。但一个hregion不会拆分到多个server上。
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product