互联网hbase数据库 是直接放在hbase吗

Amazon CAPTCHA
请输入您在这个图片中看到的字符:
& , , Inc. or its affiliatesHbase 架构简介及实践_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
Hbase 架构简介及实践
阅读已结束,如果下载本文需要使用
想免费下载本文?
把文档贴到Blog、BBS或个人站等:
普通尺寸(450*500pix)
较大尺寸(630*500pix)
你可能喜欢您所在的位置: &
1.6.2 HBase的数据管理
1.6.2 HBase的数据管理
机械工业出版社
《Hadoop实战(第2版)》第1章Hadoop简介,本章首先介绍了Hadoop分布式计算平台:它是由Apache软件基金会开发的一个开源分布式计算平台。接下来介绍了Hadoop项目及其结构,现在Hadoop已经发展成为一个包含多个子项目的集合,被用于分布式计算,最后介绍了关于Hadoop的一些基本的安全策略,包括用户权限管理、HDFS安全策略和MapReduce安全策略,为用户的实际使用提供了参考。本节为大家介绍HBase的数据管理。
1.6.2 HBase的数据管理
HBase是一个类似Bigtable的分布式数据库,它的大部分特性和Bigtable一样,是一个稀疏的、长期存储的(存在硬盘上)、多维度的排序映射表,这张表的索引是行关键字、列关键字和时间戳。表中的每个值是一个纯字符数组,数据都是字符串,没有类型。用户在表格中存储数据,每一行都有一个可排序的主键和任意多的列。由于是稀疏存储的,所以同一张表中的每一行数据都可以有截然不同的列。列名字的格式是“&family&:&label&”,它是由字符串组成的,每一张表有一个family集合,这个集合是固定不变的,相当于表的结构,只能通过改变表结构来改变表的family集合。但是label值相对于每一行来说都是可以改变的。
HBase把同一个family中的数据存储在同一个目录下,而HBase的写操作是锁行的,每一行都是一个原子元素,都可以加锁。所有数据库的更新都有一个时间戳标记,每次更新都会生成一个新的版本,而HBase会保留一定数量的版本,这个值是可以设定的。客户端可以选择获取距离某个时间点最近的版本,或者一次获取所有版本。
以上从微观上介绍了HBase的一些数据管理措施。那么HBase作为分布式数据库在整体上从集群出发又是如何管理数据的呢?
HBase在分布式集群上主要依靠由HRegion、HMaster、HClient组成的体系结构从整体上管理数据。
HBase体系结构有三大重要组成部分:
HBaseMaster:HBase主服务器,与Bigtable的主服务器类似。
HRegionServer:HBase域服务器,与Bigtable的Tablet服务器类似。
HBase Client:HBase客户端是由org.apache.hadoop.HBase.client.HTable定义的。
下面将对这三个组件进行详细的介绍。
(1)HBaseMaster
一个HBase只部署一台主服务器,它通过领导选举算法(Leader Election Algorithm)确保只有唯一的主服务器是活跃的,ZooKeeper保存主服务器的服务器地址信息。如果主服务器瘫痪,可以通过领导选举算法从备用服务器中选择新的主服务器。
主服务器承担着初始化集群的任务。当主服务器第一次启动时,会试图从HDFS获取根或根域目录,如果获取失败则创建根或根域目录,以及第一个元域目录。在下次启动时,主服务器就可以获取集群和集群中所有域的信息了。同时主服务器还负责集群中域的分配、域服务器运行状态的监视、表格的管理等工作。
(2)HRegionServer
HBase域服务器的主要职责有服务于主服务器分配的域、处理客户端的读写请求、本地缓冲区回写、本地数据压缩和分割域等功能。
每个域只能由一台域服务器来提供服务。当它开始服务于某域时,它会从HDFS文件系统中读取该域的日志和所有存储文件,同时还会管理操作HDFS文件的持久性存储工作。客户端通过与主服务器通信获取域和域所在域服务器的列表信息后,就可以直接向域服务器发送域读写请求,来完成操作。
(3)HBaseClient
HBase客户端负责查找用户域所在的域服务器地址。HBase客户端会与HBase主机交换消息以查找根域的位置,这是两者之间唯一的交流。
定位根域后,客户端连接根域所在的域服务器,并扫描根域获取元域信息。元域信息中包含所需用户域的域服务器地址。客户端再连接元域所在的域服务器,扫描元域以获取所需用户域所在的域服务器地址。定位用户域后,客户端连接用户域所在的域服务器并发出读写请求。用户域的地址将在客户端被缓存,后续的请求无须重复上述过程。
综上所述,在HBase的体系结构中,HBase主要由主服务器、域服务器和客户端三部分组成。主服务器作为HBase的中心,管理整个集群中的所有域,监控每台域服务器的运行情况等;域服务器接收来自服务器的分配域,处理客户端的域读写请求并回写映射文件等;客户端主要用来查找用户域所在的域服务器地址信息。
【责任编辑: TEL:(010)】&&&&&&
关于&&的更多文章
Hadoop Summit 2013 大会讲师 PPT 第二季重磅来袭!如果上次没有
本书描述了黑客用默默无闻的行动为数字世界照亮了一条道路的故事。
SQL Server 2012附带了强大的Analysis Services新功能
本书通过对目前中国企业在风险管理和内部控制工作中的
解释ASP.NET MVC框架与"文件页"Web框架的不同之处
本书紧紧围绕“软件架构设计”这一主题,立足实践解析了软件架构的概念,阐述了切实可行的软件架构设计方法,提供了可操作性极强
51CTO旗下网站您所在的位置: &
专访阿里穆公:阿里巴巴 HBase 性能优化及容灾经验(1)
专访阿里穆公:阿里巴巴 HBase 性能优化及容灾经验(1)
HBase 是一个分布式的可扩展、非关系型开源数据库。它很好地用Java实现了Google的Bigtable系统大部分特性,因此在数据量猛增的阿里巴巴非常受欢迎。本文中,阿里巴巴数据库技术专家朱金清(穆公)给大家分享了阿里巴巴 HBase 性能优化及容灾方面的经验。
【51CTO专稿】随着市场规模的扩大,产品与技术的发展,业务数据量越来越大,对的高效写入和读取变得越来越重要。
是一个分布式的可扩展、非关系型。它很好地用&JAVA&实现了 Google 的 Bigtable 系统大部分特性,因此在数据量猛增的阿里巴巴非常受欢迎。本文中,阿里巴巴数据库技术专家朱金清(穆公)给大家分享了阿里巴巴 HBase 及容灾方面的经验。
(阿里巴巴数据库技术专家 朱金清)
以下是采访实录:
第一部分:阿里巴巴 HBase 集群介绍
51CTO:朱老师您好!首先请您简单地做一下自我介绍。
穆公:我是朱金清,在阿里的花名叫穆公,这个花名是我师兄取的,后来由于我们阿里武侠的花名都被取光了,只能取以前的皇帝的名字,我这个是以前的秦穆公,发音跟水工、电工、木工中的&木工&一样。我主要是做数据库相关的工作,来阿里巴巴之前,我在百度做
。2011年年初来阿里巴巴了,主要做 MySQL/ HBase &相关的。
51CTO:阿里巴巴 HBase 集群的规模大概是什么样儿?
穆公:现在我们总共在线加离线是有上千台的机器,相对来说我估计应该算是国内比较大的。据我所知,百度好像不怎么用这个 HBase (早期的时候有用过),腾讯好像还没怎么听过。我知道有用 HBase 可能有几家:小米、360和新浪,大概是这样。我们这边单独的最大的集群在搜索,一个集群有二三百台左右。
51CTO:阿里巴巴这边 HBase 主要是用在搜索这个领域?
穆公:搜索的集群比较大,因为全网的日志我们要抓下来。不过很多场景都用到了,包括 kv 型行数据、append型的数据、日志业务、还要所有的历史数据,我们现在也都是放在 HBase 上。如果你是全部作为备份分析的,那就放云梯那儿,如果你要实时查询数据,或者是要查询历史数据,比如说我们的以往的订单,都可以用 HBase 。
51CTO: HBase 典型的应用场景有哪些?
穆公:主要有几种:
1、对高吞吐的写入有要求的;
2、日志型的应用;
3、有全网的数据抓取的;
4、有消息类的;
5、分析类的(如离线分析用 HBase 也是很好的选择,不过要跟在线分开);
6、结构易变类的。
51CTO:阿里巴巴对
的改进和扩展主要在哪些方面?
穆公:比如我报告里面说的容灾方案 iback ,实现了跨机房容灾和异常切换等。还有我们后端团队也开发了 Replication 方案,然后在二级索引上我们的后端研发团队也一起来做了一个二级索引的这个策略,这个二级索引现在在社区都还没有怎么用,以前好像就是听华为有一套二级索引,然后我们现在就是在这方面做,就相当于对它功能的一些完善。然后就是说 HBase 要走得更远的话,那可能跨机房容灾可能一定要做好,这一点我们也投入精力,现在看
基本上也朝着这方面,基本上他们也是这么做,所以我觉得我们方向应该是比较对的。
51CTO:你们这边有借鉴 Facebook 的经验吗?
穆公:有, Facebook 在 HBase 上打的 Patch 也比较多,我们可以直接把Patch拿过来,可能有一些能用,有一些不能用,我们就根据自己公司的实际情况,进行改进。我们跟 Facebook 沟通还是比较多的,上上周我去美国跟他们一起交流了这个,收获还是很多的。
当然就 Facebook 来说,它是一个SNS的应用,应用可能相对单一一点。淘宝阿里这边,又有交易,又有买家、卖家,是一个多维度的,相对来说,需求比较复杂多样化。 Facebook 比较好,它的应用和产品没那么复杂,把产品优化做到极致。在这方面,我们可能需要更多的学习一下。
51CTO:阿里巴巴的 HBase 跟 Facebook 的 HBase 主要的相同点和不同点分别是什么?
穆公:相同点:我们对 HBase 做事上的风格比较类似,组织结构也都蛮像的,有开发的团队,有团队;
不同点:我们比 Facebook 多了一个角色,我们有设计评审,相当于有点DBA的角色在里面,而 Facebook 可能是没有太多这样的。
阿里和 Facebook 都非常注重高可用和性能, Facebook 也在高可用上投入了很多的精力,阿里也如此。但是在性能上,阿里投入精力还可能不见得有那么多,这一点上我们需要根据自己的情况来弥补。
内容导航&第 1 页: &第 2 页: &第 3 页:
关于&&&&&&的更多文章
日晚7点整,微软公司如约发布了Windows 8.1正式版的
本期重点推荐:转角遇到Zabbix:企业级分布式系统监控部署
Velocity China 2013 Web 性能与运维大会上,来自各种
八月的天气依然那样炎热,仿佛一点星火就会引起爆炸。
那些由“补丁周二”引发的大麻烦已经成为传说,但却依
本书是一本介绍Windows系统上的用户态程序排错方法和技巧的书。本书分为4个章节,先介绍最重要的、通用的思考方法,以便制定排错
51CTO旗下网站《HBase企业应用开发实战》上市 缔元信李立松系主创
来源:缔元信.网络数据 发布时间: 18:30标签:李立松 HBase
近日,国内首部系统讲解HBase理论和实战的书籍《HBase企业应用开发实战》重磅上市。《HBase企业应用开发实战》由国内资深工程师李立松、马延辉、孟鑫合力创作。其中,李立松来自国内领先的第三方互联网数据服务公司——缔元信.网络数据。
(图为李立松参与制作《HBase企业应用开发实战》书籍)
《HBase企业应用开发实战》主要是系统讲解HBase理论和实战的书籍,书中重点强调了HBase在企业的实际应用,立足于企业的实际生产环境,旨在帮助企业切实解决大数据技术如何落地的问题。
(图为缔元信.网络数据 李立松)
作者李立松毕业于黑龙江科技大学信息与科学技术专业,毕业后一直从事数据开发相关工作,对Hadoop、Hive、Hbase等有深入透彻的研究和浓厚的兴趣。2013年李立松加入缔元信.网络数据,负责缔元信DMP平台的开发工作。
据李立松介绍,目前Hbase在缔元信的主集群存储了超过2万多亿结果数据,23000多个在线region,最大的单表有5000多个region,达到每天新增入库量上百亿条的规模。庞大的入库压力迫使缔元信不断优化Hbase,为此开发人员们开发了Hbase分布式入库系统,同时还开发了hbase监控报警系统,对Hbase的关键指标进行阀值监控,发现超标问题,报警系统会把相关信息投递到运维部门,运维值班人员会立即通知相关人员进行故障排除。
一、公司介绍
北京缔元信互联网数据技术有限公司(以下简称:缔元信)是中国领先的第三方互联网数据服务提供商,是行业中唯一一家国家级高新技术企业。 缔元信的数据产品有SiteRating网站流量监测系统、AdRating网络广告效果监测系统、ClickRating用户点击统计系统等。 此外,缔元信已积累4亿以上可连续分析的网民行为数据,日平均数据处理能力达30亿条,客户群覆盖国内主流媒体网站、政府行业主管机构、顶级4A代理机构及汽车、IT、快消、家电等行业的一线品牌企业。
二、DDMP(缔元信数据管理平台)介绍
缔元信自主研发的DDMP数据管理平台,基于缔元信的数据统计业务,对中国互联网用户行为数据进行集中化、标准化、属性化管理。采用了云存储、云计算及智能语义分析技术,根据用户的网上浏览和消费行为,对用户进行消费倾向特征标识,并可通过多种API接口,将数据输出给各种应用领域。DDMP是网络数据挖掘分析的基础,是各种定向广告平台、个性化推荐系统、在线商务智能分析的支撑系统。
您可能也喜欢
还能输入110个字

我要回帖

更多关于 hbase 删除数据 的文章

 

随机推荐