`
lovnet
  • 浏览: 6723343 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
文章分类
社区版块
存档分类
最新评论

Hadoop Hbase适合存储哪类数据?

阅读更多
Hadoop Hbase适合存储哪类数据?

最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。Hbase之所以擅长存储这类数据,是因为Hbase是column-oriented列导向的存储机制,而我们熟知的RDBMS都是row- oriented行导向的存储机制(郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念)。在列导向的存储机制下对于Null值得存储是不占用任何空间的。比如,如果某个表 UserTable有10列,但在存储时只有一列有数据,那么其他空值的9列是不占用存储空间的(普通的数据库MySql是如何占用存储空间的呢?)。

Hbase适合存储非结构化的稀疏数据的另一原因是他对列集合 column families 处理机制。 打个比方,ruby和python这样的动态语言和c++、java类的编译语言有什么不同? 对于我来说,最显然的不同就是你不需要为变量预先指定一个类型。Ok ,现在Hbase为未来的DBA也带来了这个激动人心的特性,你只需要告诉你的数据存储到Hbase的那个column families 就可以了,不需要指定它的具体类型:char,varchar,int,tinyint,text等等。

Hbase还有很多特性,比如不支持join查询,但你存储时可以用:parent-child tuple 的方式来变相解决。
由于它是Google BigTable的 Java 实现,你可以参考一下:google bigtable
下面3副图是Hbase的架构、数据模型和一个表格例子,你也可以从:Hadoop summit 上 获取更多的信息。












分享到:
评论

相关推荐

    大数据云计算技术系列 Hadoop之Hbase从入门到精通(共243页).pdf

    上图描述了Hadoop EcoSystem中的各层系统,其中HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和...

    Hadoop hbase介绍

    Hadoop hbase等介绍 数据长期的积累,文件总量非常庞大,存储这些数据需要投入巨大的硬件资源,但是如果能在已有空闲磁盘集群下可以利用起来,可以不再需要大规模采集服务器存储数据或购买容量庞大的磁盘,减少了...

    HBase数据库设计.doc

    2 HBase与关系数据的区别? 2 HBase与RDBMS的区别? 2 3. HBase的数据模式是怎么样的?即有哪些元素?如何存储?等 3 1). 数据模式 3 2). HBase的基本元素: 4 3) 数据模型有哪些操作? 4 4) 返回结果的排序...

    Hadoop HBase数据库简介

    HBase 是基于 Apache Hadoop 的面向列的 NoSQL 数据库,是 Google 的 BigTable 的...HBase 的目标是存储并处理大型的数据,也就是仅用普通的硬件配置,就能够处理上千亿的行和几百万的列所组成的超大型数据库。 Hadoo

    大数据云计算技术系列 Hadoop之Hbase简介(共19页).pdf

    与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。 HBase中的表一般有这样的特点: 1 大:一个表可以有上亿行,上百万列 2 面向列:面向列(族)的存储和权限控制,列...

    Hadoop之HBase简介

    HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtable利用...

    hadoop数据加解密

    1、随机生成大文本文件(以行方式存储),文件存储在HDFS中,并将文件信息写入HBase中。 2、选择AES加密算法对生成的文件进行加密操作,秘钥长度为128位,加密后的文件存储HDFS中,秘钥写入HBase 3、从HBase中读取...

    hbase-2.5.8-hadoop3-bin.tar.gz

    HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文...HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

    hadoop相关知识习题

    3.HBase依靠HDFS存储底层数据 4.HBase依赖Zookeeper提供消息通信机制 5.HBase依赖MapReduce提供强大的计算能力 6.MapReduce与HBase的关系,哪些描述是正确的?①两者不是强关联关系,没有MapReduce,HBase可以正常...

    HBase分布式架构处理大数据量(高并发和实时处理)

    本文来自于csdn,介绍了Hadoop的原理,HBase的特点,HBase 的高并发和实时处理数据,数据模型,工作流程等。(一)HDFS主要是用于做什么的?HDFS(HadoopDistributedFileSystem)分布式文件管理系统、是Hadoop项目的...

    面向HBase的大规模数据加载研究

    首先,分析HBase底层数据存储,实验得出HBase自带数据加载方式在效率和灵活性方面存在不足;进而,提出了自定义并行数据加载算法,并针对集群进行优化.实验结果表明,优化后的自定义并行数据加载方式能充分发挥集群性能,...

    Hbase 表设计与操作

    HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtable...

    基于Hadoop的海量交易记录查询系统研究

    的存储特点,通过分析 HBase 的数据存储方式、Region 定位方式和写数据过程,提出了系统 设计的优化和改进建议。接着,对基于 Hadoop 的海量交易记录查询系统进行了设计和实现, 主要包括数据接入层、存储层和查询层...

    Apache Hadoop---HBase.docx

    HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的...HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。

    2-1-HBase.pdf

    HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。...人们可以直接或通过HBase的存储HDFS数据。使用HBase在HDFS读取消费/随机访问数据。 HBase在Hadoop的文件系统之上,并提供了读写访问。

    Hadoop大数据处理_刘军

    《Hadoop大数据处理》共10章涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、使用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与...

    Hbase与zookeeper文档

    HBase即Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在普通的PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtable利用...

    Hadoop各组件详解(Hbase篇 持续更新版)

    1)HBASE译为“Hadoop Database”,是一个高可靠性、高性能、列存储、可伸缩、实时读写的NoSQL数据库系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群 2)主要用来存储结构化和半结构化的松散数据...

    hbase-1.4.9-bin.tar.gz

    hbase官方推荐稳定版1.4.9 HBase是建立在Hadoop文件系统之上的分布式面向列的...人们可以直接或通过HBase的存储HDFS数据。使用HBase在HDFS读取消费/随机访问数据。 HBase在Hadoop的文件系统之上,并提供了读写访问。

    HBase(hbase-2.4.9-bin.tar.gz)

    HBase(hbase-2.4.9-bin.tar.gz)是一个分布式的、面向列的开源数据库,该技术来源于 Fay ...HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

Global site tag (gtag.js) - Google Analytics