hadoop项目实战的几个主要子项目有哪些

1.2 Hadoop项目及其结构
本文所属图书&>&
本书能满足读者全面学习最新的Hadoop技术及其相关技术(Hive、HBase等)的需求,是一本系统且极具实践指导意义的Hadoop工具书和参考书。第1版上市后广受好评,被誉为学习Hadoop技术的经典著作之一。与第1版相比,...&&
现在Hadoop已经发展成为包含很多项目的集合。虽然其核心内容是MapReduce和Hadoop分布式文件,但与Hadoop相关的Common、Avro、Chukwa、Hive、HBase等项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。图1-1是Hadoop的项目结构图。
下面将对Hadoop的各个关联项目进行更详细的介绍。
1)Common:Common是为Hadoop其他子项目提供支持的常用工具,它主要包括FileSystem、RPC和串行化库。它们为在廉价硬件上搭建云计算环境提供基本的服务,并且会为运行在该平台上的软件开发提供所需的API。
2)Avro:Avro是用于数据序列化的。它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。其中代码生成器既不需要读写文件数据,也不需要使用或实现RPC协议,它只是一个可选的对静态类型语言的实现。
Avro系统依赖于模式(Schema),数据的读和写是在模式之下完成的。这样可以减少写入数据的开销,提高序列化的速度并缩减其大小;同时,也可以方便动态脚本语言的使用,因为数据连同其模式都是自描述的。
在RPC中,Avro系统的客户端和服务端通过握手协议进行模式的交换,因此当客户端和服务端拥有彼此全部的模式时,不同模式下相同命名字段、丢失字段和附加字段等信息的一致性问题就得到了很好的解决。
3)MapReduce:MapReduce是一种模型,用于大规模数据集(大于1TB)的并行运算。映射(Map)、化简(Reduce)的概念和它们的主要思想都是从函数式语言中借鉴而来的。它极大地方便了编程人员&即使在不了解分布式并行编程的情况下,也可以将自己的程序运行在分布式系统上。MapReduce在执行时先指定一个Map(映射)函数,把输入键值对映射成一组新的键值对,经过一定处理后交给Reduce,Reduce对相同key下的所有value进行处理后再输出键值对作为最终的结果。
图1-2是MapReduce的任务处理流程图,它展示了MapReduce程序将输入划分到不同的Map上、再将Map的结果合并到Reduce、然后进行处理的输出过程。详细介绍请参考本章1.3节。
4)HDFS:HDFS是一个分布式文件系统。因为HDFS具有高容错性(fault-tolerent)的特点,所以它可以设计部署在低廉(low-cost)的硬件上。它可以通过提供高吞吐率(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了对可移植操作系统接口(POSIX,Portable Operating System Interface)的要求,这样可以实现以流的形式访问文件系统中的数据。HDFS原本是开源的Apache项目Nutch的基础结构,最后它却成为了Hadoop基础架构之一。
以下几个方面是HDFS的设计目标:
&检测和快速恢复硬件故障。硬件故障是计算机常见的问题。整个HDFS系统由数百甚至数千个存储着数据文件的服务器组成。而如此多的服务器则意味着高故障率,因此,故障的检测和快速自动恢复是HDFS的一个核心目标。
&流式的数据访问。HDFS使应用程序流式地访问它们的数据集。HDFS被设计成适合进行批量处理,而不是用户交互式处理。所以它重视数据吞吐量,而不是数据访问的反应速度。
&简化一致性模型。大部分的HDFS程序对文件的操作需要一次写入,多次读取。一个文件一旦经过创建、写入、关闭就不需要修改了。这个假设简化了数据一致性问题和高吞吐量的数据访问问题。
&通信协议。所有的通信协议都是在TCP/IP协议之上的。一个客户端和明确配置了端口的名字节点(NameNode)建立连接之后,它和名字节点的协议便是客户端协议(Client Protocal)。数据节点(DataNode)和名字节点之间则用数据节点协议(DataNode Protocal)。
关于HDFS的具体介绍请参考本章1.3节。
5)Chukwa:Chukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。Chukwa是在Hadoop的HDFS和MapReduce框架之上搭建的,它继承了Hadoop的可扩展性和健壮性。Chukwa通过HDFS来存储数据,并依赖MapReduce任务处理数据。Chukwa中也附带了灵活且强大的工具,用于显示、监视和分析数据结果,以便更好地利用所收集的数据。
6)Hive:Hive最早是由Facebook设计的,是一个建立在Hadoop基础之上的数据仓库,它提供了一些用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储的工具。Hive提供的是一种结构化数据的机制,它支持类似于传统RDBMS中的SQL语言的查询语言,来帮助那些熟悉SQL的用户查询Hadoop中的数据,该查询语言称为Hive QL。与此同时,传统的MapReduce编程人员也可以在Mapper或Reducer中通过Hive QL查询数据。Hive编译器会把Hive QL编译成一组MapReduce任务,从而方便MapReduce编程人员进行Hadoop系统开发。
7)HBase:HBase是一个分布式的、面向列的开源,该技术来源于Google论文《Bigtable:一个结构化数据的分布式存储系统》。如同Bigtable利用了Google文件系统(Google File System)提供的分布式数据存储方式一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase不同于一般的关系,原因有两个:其一,HBase是一个适合于非结构化数据存储的数据库;其二,HBase是基于列而不是基于行的模式。HBase和Bigtable使用相同的数据模型。用户将数据存储在一个表里,一个数据行拥有一个可选择的键和任意数量的列。由于HBase表是疏松的,用户可以为行定义各种不同的列。HBase主要用于需要随机访问、实时读写的大数据(Big Data)。具体介绍请参考第12章。
8)Pig:Pig是一个对大型数据集进行分析、评估的平台。Pig最突出的优势是它的结构能够经受住高度并行化的检验,这个特性使得它能够处理大型的数据集。目前,Pig的底层由一个编译器组成,它在运行的时候会产生一些MapReduce程序序列,Pig的语言层由一种叫做Pig Latin的正文型语言组成。有关Pig的具体内容请参考第14章。
9)ZooKeeper:ZooKeeper是一个为分布式应用所设计的开源协调服务。它主要为用户提供同步、配置管理、分组和命名等服务,减轻分布式应用程序所承担的协调任务。ZooKeeper的文件系统使用了我们所熟悉的目录树结构。ZooKeeper是使用编写的,但是它支持和C两种编程语言。有关ZooKeeper的具体内容请参考第15章。
上面讨论的9个项目在本书中都有相应的章节进行详细的介绍。
您对本文章有什么意见或着疑问吗?请到您的关注和建议是我们前行的参考和动力&&
(window.slotbydup=window.slotbydup || []).push({
id: '2467141',
container: s,
size: '1000,90',
display: 'inlay-fix'
您的浏览器不支持嵌入式框架,或者当前配置为不显示嵌入式框架。
(window.slotbydup=window.slotbydup || []).push({
id: '2467142',
container: s,
size: '1000,90',
display: 'inlay-fix'
(window.slotbydup=window.slotbydup || []).push({
id: '2467143',
container: s,
size: '1000,90',
display: 'inlay-fix'
(window.slotbydup=window.slotbydup || []).push({
id: '2467148',
container: s,
size: '1000,90',
display: 'inlay-fix'最 靠谱 的软件外包伙伴
您的位置: &
& 十大经典Hadoop大数据生态系统项目
十大经典Hadoop大数据生态系统项目
在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本文介绍一些重要项目,并顺便了解几个新兴项目。
管理和分析大数据已经变成了重大挑战,数量急剧增加的信息从社交媒体、连接到物联网中&物件&的传感器、结构化数据、非结构化数据以及可以收集的其他一切数据收集而来。为了应对这项任务,开发人员已开发了一系列新的开源技术。
旗舰软件Apache Hadoop是Apache软件基金会的一个项目,它在上个月迎来了十周年。这十年已发生了很大的变化。如今,另外许多技术也是大数据和Hadoop生态系统的一员,它们大多数都归属Apache软件基金会。
开发人员和企业组织在使用诸多项目,开发大数据技术,并将它们捐献给开源社区,以便进一步发展和采用,其中就包括Spark、Hive、HBase和Storm。
在网飞和领英等一些企业,其中一些技术已用于生产环境。它们让企业组织能够实时处理海量数据,并转换那些数据,为最终客户改善服务。
这些大数据技术常常脱胎于试图改善大数据技术的工作方式、加快处理速度的企业组织。它们代表了生态系统的演变之路和下一波开源技术,这证明明智的参与者组成的社区取得的发展胜过专有企业环境里面的发展。
当前的开源和大数据时代完全始于Hadoop,它常常被誉为是一种面向分布式存储的开源框架,用于在大众化硬件上处理庞大数据集。
Hadoop发行版公司Hortonworks的企业战略副总裁Shaun Connolly在接受采访时告诉《信息周刊》杂志:&作为一种新兴的数据架构,Hadoop成为备受瞩目的中心。Hadoop周围出现了这个生态系统,备受关注的项目围绕它壮大起来。&
而发展并未止步。新的项目一直被Apache软件基金会纳入到大数据生态系统。最近,Apache Arrow就成了一个顶级项目。其他项目可能会作为Apache软件基金会的孵化器计划(Incubator)的一员而进入生态系统。去年年底,IBM面向Spark的SystemML机器学习引擎就得到了接受,成为一个孵化器项目。
有许多项目是Apache软件基金会的大数据生态系统的一员。本文介绍了一些重要项目,还介绍了几个新兴项目。欢迎留言交流!
Hadoop其实是开源大数据领域的旗舰技术。它是由雅虎的一个编外项目发展起来的,当时开发人员需要一种方法来存储和处理他们使用新的搜索引擎收集而来的海量数据。这项技术最终捐献给了Apache软件基金会。如今有来自商用公司的三大发行版:Cloudera、Hortonworks和MapR。Hadoop的开发者之一Doug Cutting最近接受了《信息周刊》杂志的采访,畅谈了Hadoop的发展。
Apache Hive最初由Facebook开发,后来捐献给了Apache软件基金会。这项技术是一种建立在Hadoop基础上的数据仓库基础设施,提供了数据汇总、查询和分析。
使用Hive的公司包括CNET和eHarmony。
Apache HBase脱胎于一家名为Powerset的公司所搞的一个项目,2008年该公司被微软收购。其目的是,处理海量数据,便于自然语言搜索。这项技术是一种非关系型的开源分布式数据库,仿照了谷歌的BigTable,用Java编写而成。2010年,HBase成为Apache软件基金会的一个项目。
如今使用HBase的公司包括Adobe、Facebook、Meetup和趋势科技。
Apache Spark俨然就是大数据生态系统冉冉升起的明星。这项技术最初由加州大学伯克利分校的AMP实验室开发。它可以取代Hadoop的MapReduce,不过速度更快,因为Spark改而使用内存中处理技术,其性能最多高出100倍,这取决于具体应用。
Spark的开发人员现在供职于Databricks,该公司是支持Apache软件基金会内部这个项目的主力军,它还提供商用的Spark即服务( Spark-as-a-Service)。截至2015年年底,Spark是所有大数据项目中最活跃的开源项目,之前12个月有600多个代码捐献者。
如今许多公司使用Spark,包括亚马逊、Autodesk、电子港湾、Groupon、OpenTable和TripAdvisor。
Apache Kafka起初只是领英公司内部的一个项目,作为一种消息传递系统,用于代理安排该公司面向消费者的职业网站及平台生成和处理的海量实时数据。
2011年,Kafka捐献给了开源社区,2012年从Apache孵化器计划出来。当初开发Kafka的领英开发人员成了从领英拆分出来的Confluent这家新公司的成员。
使用Kafka的公司包括领英、推特、网飞、Pinterest、高盛和Coursera。
Apache Storm在其项目页面上的描述是,这是一种分布式实时计算系统,让用户很容易可靠地处理无限制的数据流,正如Hadoop用于批量处理,Storm用于实时处理。
这项技术有时被称为是Spark的替代技术。2011年,开发Storm的公司BackType被推特收购。2014年,从孵化器计划出来后,Storm成为了Apache软件基金会的一个顶级项目。
此后,推特开发了自己的内部系统,用于处理最初分派给Storm的任务。使用Storm的公司包括雅虎和Spotify。
Apache Nifi原先名叫Niagara Files,这个技术转让项目由美国国家安全局(NSA)开发,2014年11月,它作为一个孵化器项目,捐献给Apache软件基金会。2015年,它成了一个顶级项目。
Nifi旨在处理这个问题:如何让数据在系统之间的流动实现自动化。其在Apache软件基金会上的项目页面介绍,这项技术&支持功能强大、可扩展的有向图,这些有向图涉及数据路由、转换和系统中介逻辑。&
它提供了一种基于Web的用户界面。另外,与NSA开发的其他项目一样,它也提供了安全功能,包括SSL、SSH、HTTPS、加密内容,以及可插入式、基于角色的验证和授权机制。
2015年1月,Apache基金会接受Apache Flink成为一个顶级项目。这项技术是一种面向批量数据和流数据的分布式数据分析引擎,它提供了使用Java和Scala的编程API。
该项目脱胎于柏林的Stratosphere研究项目。使用Flink的企业组织包括第一资本(Capital One)和Data Artisans。
这个月,Apache Arrow被Apache软件基金会接收为一个顶级项目。这项技术源自Dremio公司,这家公司还捐献了Apache Drill项目。Dremio的几位创始人是从MapR出来的,这是一家Apache Hadoop发行版公司。
据Apache软件基金会声称,Arrow最初是靠来自Apache Drill项目的代码起家的。据Dremio的联合创始人兼首席技术官Jacques Nadeau声称,Arrow提供了列式内存分析功能。
Apache软件基金会的更多大数据项目
这些是Apache软件基金会里面Hadoop生态系统中一些备受关注的大数据项目。另外许多是捐献而来的。所有这些项目的开发工作都在进行之中,Apache软件基金会的网站对它们都有全面记载。
关于:中科研拓
深圳市中科研拓科技有限公司专注提供软件外包、app开发、智能硬件开发、O2O电商平台、手机应用程序、大数据系统、物联网项目等开发外包服务,十年研发经验,上百成功案例,中科院软件外包合作企业。通过IT技术实现创造客户和社会的价值,致力于为用户提供最佳的软件解决方案。联系电话400-,邮箱,网址
&& &&[] [] [] &&
[商务中心]
深圳市南山区南头关口二路智恒产业园30栋310室
[广州分公司] 广州市海珠区墩和路189号海珠科技创业服务中心2号楼302室
[成都分公司] 成都市武侯区红牌楼广场3号写字楼916
[江门分公司] 江门市蓬江区东华二路2号之一2105室转&Hadoop的项目中包含了哪些产品?
Apach 的 Hadoop的项目中包含了那些产品,如图所示:<img src="/blog7style/images/common/sg_trans.gif" real_src ="http://niaklq./y1pw70RQtwqhvDs46920vBXAzmfyo0ijLV3suYQl92Y-LClSJfB9zobeWUseNdadE9hcM-8Oh_fRh6HSkrtvpedqdVj7TlR0ioJ/Hadoop.png?psid=1" ALT="http://niaklq./y1pw70RQtwqhvDs46920vBXAzmfyo0ijLV3suYQl92Y-LClSJfB9zobeWUseNdadE9hcM-8Oh_fRh6HSkrtvpedqdVj7TlR0ioJ/Hadoop.png?psid=1" ALIGN="right" STYLE="border-style: color: rgb(51, 51, 51); font-family: A line-height: 26 text-align: background-color: rgb(255, 255, 255);"
TITLE="转&Hadoop的项目中包含了哪些产品?" />
&&&&Pig&是在MapReduce上构建的查询语言(SQL-like),适用于大量并行计算。
&&&&Chukwa&是基于Hadoop集群中监控系统,简单来说就是一个“看门狗”
(WatchDog)
&&&&Hive&是DataWareHouse
和 Map Reduce交集,适用于ETL方面的工作。
&&&&HBase&是一个面向列的分布式数据库。
Reduce&是Google提出的一种算法,用于超大型数据集的并行运算。
&&&&HDFS&可以支持千万级的大型分布式文件系统。
&&&&Zookeeper&&提供的功能包括:配置维护、名字服务、分布式同步、组服务等,用于分布式系统的可靠协调系统。
&&&&Avro&是一个数据序列化系统,设计用于支持大批量数据交换的应用。
HBase是什么?&
HBase是Apache
Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据
存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:
<img src="/blog7style/images/common/sg_trans.gif" real_src ="http://niaklq./y1pG0dfN--ZmWUPjevQkIGp0CsXxWQQ6tyzYR-XAsrWWAJYHtvcdtxk0tIK66x8N_1TKj1CO79xLljO32yk0KvLiNi7GAAaa2Lm/storage-hbase-m.png?psid=1" ALT="http://niaklq./y1pG0dfN--ZmWUPjevQkIGp0CsXxWQQ6tyzYR-XAsrWWAJYHtvcdtxk0tIK66x8N_1TKj1CO79xLljO32yk0KvLiNi7GAAaa2Lm/storage-hbase-m.png?psid=1" ALIGN="right" STYLE="border-style:"
TITLE="转&Hadoop的项目中包含了哪些产品?" />
HBase在产品中还包含了Jetty,在HBase启动时采用嵌入式的方式来启动Jetty,因此可以通过web界面对HBase进行管理和查看当前运行的一些状态,非常轻巧。
为什么采用HBase?
不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式,这样方面读写你的大数据内容。
HBase是介于Map Entry(key & value)和DB
Row之间的一种数据存储方式。就点有点类似于现在流行的Memcache,但不仅仅是简单的一个key对应一个
value,你很可能需要存储多个属性的数据结构,但没有传统数据库表中那么多的关联关系,这就是所谓的松散数据。
简单来说,你在HBase中的表创建的可以看做是一张很大的表,而这个表的属性可以根据需求去动态增加,在HBase中没有表与表之间关联查询。你只需要
告诉你的数据存储到Hbase的那个column families
就可以了,不需要指定它的具体类型:char,varchar,int,tinyint,text等等。但是你需要注意HBase中不包含事务此类的功
Apache HBase 和Google Bigtable
有非常相似的地方,一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的,因此用户可以给行定义各种不同的列,对于这样的功能在大项目中非常实用,可以简化设计和升级的成本。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 hadoop项目实战 的文章

 

随机推荐