怎么查看hdfs文件中hdfs 数据查看条数

查看HBase表在HDFS中的文件结构
查看HBase表在HDFS中的文件结构
  在HBASE中建立一张表结构如下:
  {NAME&=&&'USER_TEST_TABLE',&&  MEMSTORE_FLUSHSIZE&=&&'',&&  MAX_FILESIZE&=&&'',&&  FAMILIES&=&&[&  {NAME&=&&'info',&BLOOMFILTER&=&&'NONE',&REPLICATION_SCOPE&=&&'0',&&  COMPRESSION&=&&'NONE',&VERSIONS&=&&'1',&TTL&=&&'',&&  BLOCKSIZE&=&&'65536',&IN_MEMORY&=&&'false',&BLOCKCACHE&=&&'true'  },&&  {NAME&=&&'info2',&BLOOMFILTER&=&&'NONE',&REPLICATION_SCOPE&=&&'0',&&  COMPRESSION&=&&'NONE',&VERSIONS&=&&'1',&TTL&=&&'',&&  BLOCKSIZE&=&&'65536',&IN_MEMORY&=&&'false',&BLOCKCACHE&=&&'true'  }&  ]&  }&
  结构图如下, 往下表插入测试数据, 下面查看此表在HDFS中文件的存储方式.
  由于在HBase服务器配置文件中指定的存储HBase文件的HDFS地址为:
  hdfs://HADOOPCLUS01:端口/hbase
  登录到namenode服务器,这里为HADOOPCLUS01, 用hadoop命令查看hbase在hdfs中此表的文件.
  1. 查看Hbase根目录.&
  [hadoop@HADOOPCLUS01&bin]$&hadoop&fs&-ls&hadoop&fs&-ls&/hbase&  Found&37&items&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&09:29&/hbase/-ROOT-&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&09:29&/hbase/.META.&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&13:15&/hbase/.corrupt&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&09:48&/hbase/.logs&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&17:49&/hbase/.oldlogs&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&17:49&/hbase/splitlog&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&17:49&/hbase/USER_TEST_TABLE&
  可以看到所有表的信息. 在hdfs中的建立的目录. 一个表对应一个目录.
  -ROOT-表和.META.表也不例外, -ROOT-表和.META.表都有同样的表结构, 关于两表的表结构和怎么对应HBase整个环境的表的HRegion, 可以查看上篇转载的文章.
  splitlog和.corrupt目录分别是log split进程用来存储中间split文件的和损坏的日志文件的。
  .logs和.oldlogs目录为HLog的存储.
  .oldlogs为已经失效的HLog(Hlog对HBase数据库写Put已经全部完毕), 后面进行删除.
  HLog File 是一个Sequence File,HLog File 由一条条的 HLog.Entry构成。可以说Entry是HLog的基本组成部分,也是Read 和Write的基本单位。
  Entry由两个部分组成:HLogKey和WALEdit。
  2. 查看建立表hdfs目录内容:
  [hadoop@HADOOPCLUS01&bin]$&hadoop&fs&-ls&/hbase/USER_TEST_TABLE&  Found&2&items&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&10:18&/hbase/USER_TEST_TABLE/03d99a89a256f0e09dd0cbe&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&10:18&/hbase/USER_TEST_TABLE/68b8adfce&
  有两个目录, 说明此表已经分裂成两个HRegion.
  3. 在查看其中一个HRegion的文件目录.
  [hadoop@HADOOPCLUS01&bin]$&hadoop&fs&-ls&/hbase/USER_TEST_TABLE/68b8adfce&  Found&4&items&  -rw-r--r--&&&3&hadoop&cug-admin&&&&&&&-28&10:18&/hbase/USER_TEST_TABLE/68b8adfce/.regioninfo&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&15:21&/hbase/USER_TEST_TABLE/68b8adfce/.tmp&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&15:21&/hbase/USER_TEST_TABLE/68b8adfce/info&  drwxr-xr-x&&&-&hadoop&cug-admin&&&&&&&&&&0&&10:18&/hbase/USER_TEST_TABLE/68b8adfce/info2&
  .regioninfo 此HRegion的信息. StartRowKey, EndRowKey. 记录Region在表中的范围信息.
  info, info2, 两个ColumnFamily.& 为两个目录.
  4. 再对.regioninfo文件用cat查看内容:
  乱码已经过滤, 存储的信息整理:
  [hadoop@HADOOPCLUS01&bin]$&hadoop&fs&-cat&/hbase/USER_TEST_TABLE/68b8adfce/.regioninfo&  USER_TEST_TABLE,AAA-AAA1.68b8adfce.&  AA-AAA11110UC1&  USER_TEST_TABLE&  IS_ROOT&false&  IS_META&false&  MAX_FILESIZE&&  MEMSTORE_FLUSHSIZ&6710886&  info&  BLOOMFILTER&NONE&&  REPLICATION_SCOPEVERSIONS&1&  COMPRESSION&NONE&  TTL&&  BLOCKSIZE&65536&&&  IN_MEMORY&false&  BLOCKCACHE&true&  info2&  BLOOMFILTER&NONE&&  REPLICATION_SCOPEVERSIONS&1&  COMPRESSION&NONE&  TTL&&  BLOCKSIZE&65536&  IN_MEMORY&false&  BLOCKCACHE&true&  REGION&=&&{NAME&=&&'USER_TEST_TABLE,\x00\x00\x00\x0A\x00\x00\x00\x09AAA-AAA1\x00\x00\x00,&  1.68b8adfce.',&&  STARTKEY&=&&'\x00\x00\x00\x0A\x00\x00\x00\x09AAA-AAA1\x00\x00\x00',&&  ENDKEY&=&&'',&&  ENCODED&=&&68b8adfce,&&  TABLE&=&&{{NAME&=&&'USER_TEST_TABLE',&MAX_FILESIZE&=&&'',&&  MEMSTORE_FLUSHSIZE&=&&'',&&  FAMILIES&=&&[{NAME&=&&'info',&BLOOMFILTER&=&&'NONE',&&  REPLICATION_SCOPE&=&&'0',&VERSIONS&=&&'1',&COMPRESSION&=&&'NONE',&&  TTL&=&&'',&BLOCKSIZE&=&&'65536',&IN_MEMORY&=&&'false',&&  BLOCKCACHE&=&&'true'},&&  {NAME&=&&'info2',&BLOOMFILTER&=&&'NONE',&&  REPLICATION_SCOPE&=&&'0',&VERSIONS&=&&'1',&COMPRESSION&=&&'NONE',&&  TTL&=&&'',&BLOCKSIZE&=&&'65536',&IN_MEMORY&=&&'false',&&  BLOCKCACHE&=&&'true'}]}}&  VT102VT102VT102VT102VT102VT102VT102VT102&
  5. 查看info ColumnFamily中信息文件和目录:
  [hadoop@HADOOPCLUS01&bin]$&hadoop&fs&-ls&/hbase/USER_TEST_TABLE/68b8adfce/info&  Found&4&items&  -rw-r--r--&&&3&hadoop&cug-admin&&13-03-28&10:18&/hbase/USER_TEST_TABLE/68b8adfce/info/6133625&  -rw-r--r--&&&3&hadoop&cug-admin&&13-03-29&15:20&/hbase/USER_TEST_TABLE/68b8adfce/info/4744531&  -rw-r--r--&&&3&hadoop&cug-admin&&13-03-29&15:13&/hbase/USER_TEST_TABLE/68b8adfce/info/3854827&  -rw-r--r--&&&3&hadoop&cug-admin&&&3-03-29&15:21&/hbase/USER_TEST_TABLE/68b8adfce/info/8050697&
  6. 查看具体保存HBase数据的HDFS文件信息:
  [hadoop@HADOOPCLUS01&bin]$&hadoop&fs&-ls&/hbase/USER_TEST_TABLE/68b8adfce/info&  Found&4&items&  -rw-r--r--&&&3&hadoop&cug-admin&&13-03-28&10:18&/hbase/USER_TEST_TABLE/68b8adfce/info/6133625&  -rw-r--r--&&&3&hadoop&cug-admin&&13-03-29&15:20&/hbase/USER_TEST_TABLE/68b8adfce/info/4744531&  -rw-r--r--&&&3&hadoop&cug-admin&&13-03-29&15:13&/hbase/USER_TEST_TABLE/68b8adfce/info/3854827&  -rw-r--r--&&&3&hadoop&cug-admin&&&3-03-29&15:21&/hbase/USER_TEST_TABLE/68b8adfce/info/8050697&
  即是上面图片中插入的其中一部分数据.
  在HBase中存储时, 对于每个Qualifer有如下5个属性RowKey, ColumnFamily, Qualifer, TimeStamp, Value.
  AA-AAA11110UDFinfoCountry=1&00&&&
  # AA-AAA11110UDH 部分对应RowK
  # info对应了ColumnF
  # Country对应Q
  # 1对用V
  # 00对应TimeStamp.
  后面将分析RowKey与AA-AAA11110UDH的对应关系.
  7. 使用HTTP查看文件:
  在上面命令中, 也可以有Http查看Hdfs中的文件, 配置在hdfs-site.xml下面配置:
  &property&  &name&dfs.datanode.http.address&/name&  &value&0.0.0.0:62075&/value&  &/property&
  所以访问HDFS的HTTP的URL为:
  ;dir=/&&&
&&&主编推荐
H3C认证Java认证Oracle认证
基础英语软考英语项目管理英语职场英语
.NETPowerBuilderWeb开发游戏开发Perl
二级模拟试题一级模拟试题一级考试经验四级考试资料
港口与航道工程建设工程法规及相关知识建设工程经济考试大纲矿业工程市政公用工程通信与广电工程
操作系统汇编语言计算机系统结构人工智能数据库系统微机与接口
软件测试软件外包系统分析与建模敏捷开发
法律法规历年试题软考英语网络管理员系统架构设计师信息系统监理师
高级通信工程师考试大纲设备环境综合能力
路由技术网络存储无线网络网络设备
CPMP考试prince2认证项目范围管理项目配置管理项目管理案例项目经理项目干系人管理
Powerpoint教程WPS教程
电子政务客户关系管理首席信息官办公自动化大数据
职称考试题目
就业指导签约违约职业测评
招生信息考研政治
网络安全安全设置工具使用手机安全
3DMax教程Flash教程CorelDraw教程Director教程
Dreamwaver教程HTML教程网站策划网站运营Frontpage教程
生物识别传感器物联网传输层物联网前沿技术物联网案例分析
互联网电信IT业界IT生活
Java核心技术J2ME教程
Linux系统管理Linux编程Linux安全AIX教程
Windows系统管理Windows教程Windows网络管理Windows故障
组织运营财务资本
视频播放文件压缩杀毒软件输入法微博
数据库开发Sybase数据库Informix数据库
&&&&&&&&&&&&&&&
希赛网 版权所有 & &&<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
您的访问请求被拒绝 403 Forbidden - ITeye技术社区
您的访问请求被拒绝
亲爱的会员,您的IP地址所在网段被ITeye拒绝服务,这可能是以下两种情况导致:
一、您所在的网段内有网络爬虫大量抓取ITeye网页,为保证其他人流畅的访问ITeye,该网段被ITeye拒绝
二、您通过某个代理服务器访问ITeye网站,该代理服务器被网络爬虫利用,大量抓取ITeye网页
请您点击按钮解除封锁&大数据测试之HDFS文件系统_poptest吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0可签7级以上的吧50个
本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:22贴子:
大数据测试之HDFS文件系统
POPTEST是国内最早在大数据测试领域中探索的机构,已经形成了先进的行业课程体系和教学方法。poptest陆续会推出大数据方面的知识分享。 Hadoop主要由HDFS和MapReduce引擎两部分组成。从0.20.X分支发展出hadoop 1.0.X版 目前是稳定版本。生产环境优先使用。分布式文件系统(DFS)1、是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的用户分享文件和存储空间。2、对用户透明。用户看来就像访问本地的磁盘一样。3、容错性。即使系统中某个节点宕机,整体系统仍然可以持续运作而不会有数据丢失。 HDFS的架构主从(Master-Slave),master在系统中只有一个,slave在系统中可以有多个。master维护namenode。slave维护datanode。 Namenode:整个文件系统的管理节点。负责文件系统名称空间的管理与维护,客户文件操作的控制及具体存储任务的管理与分配。元数据的管理。元数据(fsimage:存储某一时段NameNode内存元数据信息;edits:操作日志文件;fstime:保存最近一次chechpoint的时间;version:标志性文件,表明前三个创建成功)。hdfs-site.xml的dfs.name.dir的属性。 DateNode:提供真实文件数据的存储服务。文件分块(Block),默认块大小64MB。Replication:默认有两个副本。有三个文件保证文件的安全。在hdfs.site.xml的dfs.replication配置。 SecondaryNameNode:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的editis.SecondaryNameNode默认安装在NameNode节点上,但这样不安全,可以移动位置。 HDFS数据流-写文件流程:1、客户端把数据缓存到本地临时文件夹2、客户端联系NameNode,申请文件命名空间,文件权限等,NodeNode分配DataNode,DateNode依照客户端的位置被排列成一个有着最近物理距离的序列。3、与序列的第一个数据服务器建立Socket连接,发送请求头,然后等待回应,一次下传,客户端得到回包,流水线建立成功。4、正式发送数据,以4K为大小传送。
HDFS数据流-读文件流程客户端联系NameNode,得到所有数据块信息,以及数据块对应的所有数据服务器的位置信息尝试从某个数据块对应的一组数据服务器中选出一个,进行连接。数据被一个包一个包发送回客户端,等到整个数据块的数据都被读取完了,就会断开此链接,尝试连接下一个数据块对应的数据服务器,整个流程,依次如此反复,直到所有想读的都读取完了为止。
贴吧热议榜
使用签名档&&
保存至快速回贴你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
Permission denied: user=dr.who, access=READ_EXECUTE, inode=&/user/hdfs&:hdfs:supergroup:drwx------
由于权限问题,页面看不了。
直接命令行hadoop fs -ls 查看。
要回复问题请先或
关注: 2 人查看: 11213|回复: 6
Hadoop HDFS分布式文件系统 常用命令汇总
招聘 : 认证徽章论坛徽章:45
引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理信息,单独启动停止 namenode&&datanode&&jobtracker&&tasktracker等等一系列的操作。大家跟着做一遍呢!就会对HDFS的体系架构有更加深入的理解,不多说我们开始吧。
操作系统:centos 6.0
hadoop版本:0.20.2
部署目录:/home/grid/hadoop-0.20.2
名称节点元数据位置:/home/grid/hadoop-0.20.2/tmp
数据节点数据位置:/home/grid/hadoop-0.20.2/data
master节点:h1
slave节点:h2 h4
master 和 slave 节点进程状态 ,现在进程都在启动着
[grid@h1 bin]$ jps& && &&&
4600 NameNode
4791 JobTracker
4728 SecondaryNameNode
[grid@h2 ~]$ jps
3935 DataNode
4012 TaskTracker
[grid@h4 ~]$ jps
4001 TaskTracker
3924 DataNode
[grid@h1 grid]$ mkdir input& && && && && && && && && && && && && && && &&&linux命令,创建一个input目录
[grid@h1 grid]$ ll
drwxr-xr-x. 14 grid hadoop 4096&&9月&&2 20:29 hadoop-0.20.2
drwxr-xr-x.&&2 grid hadoop 4096&&9月 16 19:56 input
drwxr-xr-x.&&7 grid hadoop 4096 10月 22 2009 vmware-tools-distrib
drwxr-xr-x.&&2 grid hadoop 4096&&9月&&1 13:55 公共的
drwxr-xr-x.&&2 grid hadoop 4096&&9月&&1 13:55 模板
drwxr-xr-x.&&2 grid hadoop 4096&&9月&&1 13:55 视频
drwxr-xr-x.&&2 grid hadoop 4096&&9月&&1 13:55 图片
drwxr-xr-x.&&2 grid hadoop 4096&&9月&&1 13:55 文档
drwxr-xr-x.&&2 grid hadoop 4096&&9月&&1 13:55 下载
drwxr-xr-x.&&2 grid hadoop 4096&&9月&&1 13:55 音乐
drwxr-xr-x.&&3 grid hadoop 4096&&9月&&2 18:50 桌面
[grid@h1 grid]$ cd input/& && && && && && && && && && && && && && && && & linux命令,进入目录
[grid@h1 input]$ echo &hello leonarding& & test1.txt& && && && && && && & linux命令,把字符串&hello leonarding&重定向到test1.txt
[grid@h1 input]$ echo &hello world& & test2.txt& && && && && && && && && &linux命令,把字符串&hello world&重定向到test2.txt
[grid@h1 input]$ cat test1.txt& && && && && && && && && && && && && && &&&linux命令,查看test1.txt文件内容
hello leonarding
[grid@h1 input]$ cat test2.txt& && && && && && && && && && && && && && &&&linux命令,查看test2.txt文件内容
hello world
[grid@h1 input]$ cd ../hadoop-0.20.2/& && && && && && && && && && && && & linux命令,进入hadoop-0.20.2目录
[grid@h1 input]$ cd /usr/java/jdk1.6.0_25/bin
[grid@h1 bin]$ jps& && && && && && && && && && && && && && && && && && &&&直接输入jps=java进程统计
28037 NameNode& && && && && &&&名称节点
28220 SecondaryNameNode& && &&&辅助名称节点
28259 JobTracker& && && && && &作业跟踪器
1.把linux操作系统的input目录拷贝到hadoop文件系统中重命名为in目录
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -put ../input in& && && &&&把linux操作系统的input目录拷贝到hadoop文件系统中重命名为in目录12/09/16 20:18:20 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink 192.168.2.103:50010& && && && && && && && && && && && && && && && &没有关闭防火墙
12/09/16 20:18:20 INFO hdfs.DFSClient: Abandoning block blk_-612/09/16 20:18:26 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack withfirstBadLink192.168.2.103:/16 20:18:26 INFO hdfs.DFSClient: Abandoning block blk_-612/09/16 20:18:32 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink 192.168.2.103:50010
12/09/16 20:18:32 INFO hdfs.DFSClient: Abandoning block blk_6
12/09/16 20:18:38 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.net.NoRouteToHostException: No route to host12/09/16 20:18:38 INFO hdfs.DFSClient: Abandoning block blk_6
12/09/16 20:18:44 WARN hdfs.DFSClient: DataStreamer Exception: java.io.IOException: Unable to create new block.at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:2845) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.access$2000(DFSClient.java:2102) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:/16 20:18:44 WARN hdfs.DFSClient: Error Recovery for block blk_6 bad datanode[0] nodes == null12/09/16 20:18:44 WARN hdfs.DFSClient: Could not get block locations. Source file &/user/grid/in/input/test2.txt& - Aborting...
put: No route to host12/09/16 20:18:44 ERROR hdfs.DFSClient: Exception closing file /user/grid/in/input/test2.txt : java.net.NoRouteToHostException: No route to hostjava.net.NoRouteToHostException: No route to host at sun.nio.ch.SocketChannelImpl.checkConnect(Natve Method) at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:567) at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206) at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:404) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.createBlockOutputStream(DFSClient.java:2870) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:2826) atorg.apache.hadoop.hdfs.DFSClient$DFSOutputStream.access$2000(DFSClient.java:2102) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:2288)
小结:这是没有关闭Linux防火墙造成的,使用 service iptables stop/start&&临时关闭/开启&&chkconfig iptables off/on&&永久关闭/开启防火墙命令来控制防火墙,关闭之后就可以顺利的进行下面操作了。
[grid@h1 grid]$ hadoop dfs -put abc.txt abc& && && && && && && && && && & 把linux操作系统东西拷贝到hadoop文件系统中并重命名abc
[grid@h1 grid]$ hadoop dfs -ls& && && && && && && && && && && && && && &&&abc文件已经在hadoop文件系统根目录下了
Found 3 items
-rw-r--r--& &2 grid supergroup& && && &44
19:12 /user/grid/abc 随机存放到某一个节点
drwxr-xr-x& &- grid supergroup& && && & 0
19:44 /user/grid/in
drwxr-xr-x& &- grid supergroup& && && & 0
20:41 /user/grid/out
2.查看hadoop文件系统中根目录下in子目录中所有内容
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -ls& && && && && && && && && && && && && && & 查看hadoop文件系统根目录内容
Found 1 items
drwxr-xr-x& &- grid supergroup& && && & 0
19:44 /user/grid/in& && && && &&&只有一个in目录
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -ls ./in/*& && && && && && && && && && && && &查看hadoop文件系统中根目录下in子目录内容
-rw-r--r--& &2 grid supergroup& && && &17
19:44 /user/grid/in/test1.txt& & 有 2个 文件
-rw-r--r--& &2 grid supergroup& && && &12
19:44 /user/grid/in/test2.txt
小结:Hadoop没有当前目录的概念,当然也不能进入in目录,更没有cd命令。所以查看时必须输入目录路径
3.测试map_reduce系统是否可以正常工作,map reduce 采用“就近分配节点”原则执行数据
jar包:/home/grid/hadoop-0.20.2/hadoop-0.20.2-examples.jar& && & 安装hadoop时从源代码拷贝过来的,我们可以直接使用
[grid@h1 hadoop-0.20.2]$ bin/hadoop jar hadoop-0.20.2-examples.jar wordcount in out& &把这个jar包里wordcount功能提交给map_reduce当做一个作业运行,测试map_reduce系统是否可以正常工作,in&&输入数据目录(数据源) out 输出数据目录(即输出到哪里)
12/09/17 20:39:06 INFO input.FileInputFormat: Total input paths to process : 2
12/09/17 20:39:07 INFO mapred.JobClient: Running job: job__0002& && &&&运行作业号“日1856不是时间”
12/09/17 20:39:08 INFO mapred.JobClient:&&map 0% reduce 0%& && && && && && && && &
12/09/17 20:40:34 INFO mapred.JobClient:&&map 50% reduce 0%
12/09/17 20:40:49 INFO mapred.JobClient:&&map 100% reduce 0%& && && && && && && &&&map&&reduce进度
12/09/17 20:41:02 INFO mapred.JobClient:&&map 100% reduce 100%
12/09/17 20:41:04 INFO mapred.JobClient: Job complete: job__0002& && & 作业完成
12/09/17 20:41:04 INFO mapred.JobClient: Counters: 17
12/09/17 20:41:04 INFO mapred.JobClient:& &Job Counters& && && && && && && && && & 作业计数器
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Launched reduce tasks=1& && && && && &启动reduce任务1个
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Launched map tasks=3& && && && && && &启动map任务3个
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Data-local map tasks=3
12/09/17 20:41:04 INFO mapred.JobClient:& &FileSystemCounters& && && && && && && & 文件系统计数器
12/09/17 20:41:04 INFO mapred.JobClient:& &&&FILE_BYTES_READ=59
12/09/17 20:41:04 INFO mapred.JobClient:& &&&HDFS_BYTES_READ=29
12/09/17 20:41:04 INFO mapred.JobClient:& &&&FILE_BYTES_WRITTEN=188
12/09/17 20:41:04 INFO mapred.JobClient:& &&&HDFS_BYTES_WRITTEN=29
12/09/17 20:41:04 INFO mapred.JobClient:& &Map-Reduce Framework& && && && && && &&&map_reduce框架
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Reduce input groups=3& && && && && &&&reduce输入组3
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Combine output records=4& && && && &&&合并输出记录4
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Map input records=2& && && && && && & map输入记录2
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Reduce shuffle bytes=65& && && && && &reduce shuffle=预处理 减少计算量 算的更快
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Reduce output records=3& && && && && &reduce输出记录3
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Spilled Records=8& && && && && && && &溢出记录8
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Map output bytes=45& && && && && && & map输出字节45
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Combine input records=4& && && && && &合并输入记录4
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Map output records=4& && && && && && &map输出记录4
12/09/17 20:41:04 INFO mapred.JobClient:& &&&Reduce input records=4& && && && && & reduce输入记录4
浏览器:& &这里有job更详细的信息
小结:报错信息【org.apache.hadoop.util.DiskChecker$DiskErrorException: Could no find taskTracker/jobcache/job__0001/attempt__0001_m_/output/file.out.index in any of the configured local directories】&&请执行stop-all.sh -& start-all.sh& & 重启hadoop所有进程
4.列出根目录下所有内容
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -ls
Found 2 items
drwxr-xr-x& &- grid supergroup& && && & 0
19:44 /user/grid/in
drwxr-xr-x& &- grid supergroup& && && & 0
19:56 /user/grid/out
&&列出根目录下out子目录所有内容
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -ls ./out/
Found 2 items
drwxr-xr-x& &- grid supergroup& && && & 0
20:39 /user/grid/out/_logs
-rw-r--r--& &2 grid supergroup& && && &29
20:40 /user/grid/out/part-r-00000
5.查看part-r-00000文件内容
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -cat /user/grid/out/part-r-00000& && &必须写绝对路径,因为hadoop下没有当前目录概念
hello 2& && && && && && && &统计单词出现2次
leonarding 1& && && && & 统计单词出现1次
world 1& && && && && && && &统计单词出现1次
小结:cat 对象必须是文件,不能对目录查看
6.删除hadoop文件系统文件和目录
必须选项 -rmr& &不能-rm& &use -rmr instead
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -rmr /user/grid/in/input/test2.txt& &&&删除hadoop文件系统里的test2.txt文件,一定要加目录路径
Deleted hdfs://h1:9000/user/grid/in/input/test2.txt
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -rmr /user/grid/in/test2.txt& && && &&&删除hadoop文件系统文件,一定要加目录路径
Deleted hdfs://h1:9000/user/grid/in/test2.txt
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -rmr /user/grid/in& && && && && && && &删除in目录
Deleted hdfs://h1:9000/user/grid/in
h2&&h4&&的Linux操作系统上面看文件是不是已经被删除了,占用block已经被释放了
小结:删除HDFS文件系统内文件和目录时选项必须要写 -rmr&&而不能 -rm哦
7.从Linux操作系统上看hadoop文件存放在哪里& &数据只会存放在数据节点&&h2&&h4,而不会存放在名称节点 h1
current]$ pwd
/home/grid/hadoop-0.20.2/data/current
[grid@h4 current]$ ll& && && && && &&&h4节点
总用量 224
-rw-r--r--. 1 grid hadoop& &&&17&&9月 17 19:44 blk_3665795
-rw-r--r--. 1 grid hadoop& &&&11&&9月 17 19:44 blk_3.meta
-rw-r--r--. 1 grid hadoop& &9151&&9月 17 20:41 blk_9601238
-rw-r--r--. 1 grid hadoop& &&&79&&9月 17 20:41 blk_6.meta
-rw-r--r--. 1 grid hadoop 月 17 20:35 blk_-5784374
-rw-r--r--. 1 grid hadoop& &1123&&9月 17 20:35 blk_-0.meta
-rw-r--r--. 1 grid hadoop& && &4&&9月 17 20:28 blk_082806
-rw-r--r--. 1 grid hadoop& &&&11&&9月 17 20:28 blk_9.meta
-rw-r--r--. 1 grid hadoop& &&&29&&9月 17 20:40 blk_-6840432
-rw-r--r--. 1 grid hadoop& &&&11&&9月 17 20:40 blk_-6.meta
-rw-r--r--. 1 grid hadoop& &&&12&&9月 17 19:44 blk_3069759
-rw-r--r--. 1 grid hadoop& &&&11&&9月 17 19:44 blk_2.meta
-rw-r--r--. 1 grid hadoop&&16737&&9月 17 20:39 blk_2266416
-rw-r--r--. 1 grid hadoop& & 139&&9月 17 20:39 blk_5.meta
-rw-r--r--. 1 grid hadoop& &1734&&9月 18 07:51 dncp_block_verification.log.curr
-rw-r--r--. 1 grid hadoop& & 158&&9月 17 20:27 VERSION
[grid@h2 current]$ ll& && && && && &&&h2节点
总用量 224
-rw-r--r--. 1 grid hadoop& &&&17&&9月 17 19:44 blk_3665795
-rw-r--r--. 1 grid hadoop& &&&11&&9月 17 19:44 blk_3.meta
-rw-r--r--. 1 grid hadoop& &9151&&9月 17 20:41 blk_9601238
-rw-r--r--. 1 grid hadoop& &&&79&&9月 17 20:41 blk_6.meta
-rw-r--r--. 1 grid hadoop 月 17 20:35 blk_-5784374
-rw-r--r--. 1 grid hadoop& &1123&&9月 17 20:35 blk_-0.meta
-rw-r--r--. 1 grid hadoop& && &4&&9月 17 20:28 blk_082806
-rw-r--r--. 1 grid hadoop& &&&11&&9月 17 20:28 blk_9.meta
-rw-r--r--. 1 grid hadoop& &&&29&&9月 17 20:40 blk_-6840432
-rw-r--r--. 1 grid hadoop& &&&11&&9月 17 20:40 blk_-6.meta
-rw-r--r--. 1 grid hadoop& &&&12&&9月 17 19:44 blk_3069759
-rw-r--r--. 1 grid hadoop& &&&11&&9月 17 19:44 blk_2.meta
-rw-r--r--. 1 grid hadoop&&16737&&9月 17 20:39 blk_2266416
-rw-r--r--. 1 grid hadoop& & 139&&9月 17 20:39 blk_5.meta
-rw-r--r--. 1 grid hadoop& &1541&&9月 18 07:51 dncp_block_verification.log.curr
-rw-r--r--. 1 grid hadoop& & 158&&9月 17 20:27 VERSION
小结:hadoop数据只在datanode节点保存(h2 h4)不在namenode保存,由于我设置了 数据块复制2份,那么在h2 h4 里面文件都是一模一样的(冗余防错)hdfs_site.xml -& &name&dfs.data.dir&/name&指定数据节点存放数据位置 /home/grid/hadoop-0.20.2/data/
hadoop一个文件是由数据块组成,容量最大不超过64M,是由数据和元数据组成。
datanode文件采用一次性写入多次读,不需修改,可以删除在重新写入
NAMENODE介绍
namenode节点中保存是映像文件和事务日志,即元数据,如果元数据被破坏了,那么我们整个HDFS系统就崩溃了
映像文件:存放文件系统命名空间 ,例如 文件映像&&文件属性
事务日志:存放HDFS元数据记录
什么是元数据:记录每个文件数据块在各个datanode上位置和副本(文件数据块都放在哪个节点上,副本有几个),元数据也可以复制多个副本,只在namenode里添加副本,缺点就是副本越多,空间利用率越小,安全性越大,速度越慢
namenode冗余:namenode是HDFS文件系统总控节点,但它是一个单点,如果出现故障也需要手动切换到secondarynamenode SNN
namenode不参与实际数据传输,只负责元数据查询
namenode元数据位置:
[grid@h1 current]$ pwd
/home/grid/hadoop-0.20.2/tmp/dfs/name/current
[grid@h1 current]$ ll
-rw-r--r--. 1 grid hadoop& & 4&&9月 18 08:58 edits& && &事务日志
-rw-r--r--. 1 grid hadoop 2130&&9月 18 08:58 fsimage& & 映像文件
-rw-r--r--. 1 grid hadoop& & 8&&9月 18 08:58 fstime& &&&事务日志
-rw-r--r--. 1 grid hadoop&&101&&9月 18 08:58 VERSIO
8.hadoop文件系统的管理报告,即HDFS基本统计信息
[grid@h4 ~]$ hadoop dfsadmin -report& && && && &h4 节点
Configured Capacity:
(18.5 GB)& && &分配总容量
Present Capacity:
(8.32 GB)& && && &
DFS Remaining:
(8.32 GB)& && && && & DFS剩余容量
DFS Used: 8 KB)& && && && && && && &&&DFS已使用容量
DFS Used%: 0.01%& && && && && && && && && && &&&DFS已使用百分比
Under replicated blocks: 1& && && && && && && & 复制成功块数
Blocks with corrupt replicas: 0& && && && && &&&复制失败块数
Missing blocks: 0& && && && && && && && && && & 丢失块数
-------------------------------------------------
Datanodes available: 2 (2 total, 0 dead)& && &&&数据节点有效
Name: 192.168.2.103:50010& && && && && && && &&&h2数据节点ip和端口
Decommission Status : Normal& && && && && && &&&状态正常
Configured Capacity:
(9.25 GB)& && & 配置总容量
DFS Used: 4 KB)& && && && && && && &&&DFS使用量
Non DFS Used:
(4.98 GB)& && && && &&&linux容量非DFS使用的
DFS Remaining: (4.27 GB)& && && && &&&DFS剩余容量
DFS Used%: 0%& && && && && && && && && && && &&&DFS已使用百分比
DFS Remaining%: 46.13%& && && && && && && && &&&DFS未用百分比
Last contact: Tue Sep 18 19:34:32 CST 2012& && &最后的联接
Name: 192.168.2.105:50010& && && && && && && &&&h2数据节点ip和端口
Decommission Status : Normal& && && && && && &&&状态正常
Configured Capacity:
(9.25 GB)& && & 配置总容量
DFS Used: 4 KB)& && && && && && && &&&DFS使用量
Non DFS Used:
(5.2 GB)& && && && && &linux容量非DFS使用的
DFS Remaining: (4.05 GB)& && && && &&&DFS剩余容量
DFS Used%: 0%& && && && && && && && && && && &&&DFS已使用百分比
DFS Remaining%: 43.81%& && && && && && && && &&&DFS未用百分比
Last contact: Tue Sep 18 19:34:32 CST 2012& && &最后的联接
9.单独启动停止 namenode&&datanode&&jobtracker&&tasktracker
单独启动/停止 namenode& && &start-dfs.sh/stop-dfs.sh
单独启动/停止 datanode& && &hadoop-daemon.sh start datanode/hadoop-daemon.sh stop datanode
单独启动/停止 jobtracker& & hadoop-daemon.sh start tasktracker/hadoop-daemon.sh stop tasktracker
单独启动/停止 tasktracker& &start-mapred.sh/stop-mapred.sh
[grid@h4 bin]$ pwd
/home/grid/hadoop-0.20.2/bin
[grid@h4 bin]$ jps
17119 DataNode
17230 TaskTracker
[grid@h4 bin]$ hadoop-daemon.sh stop tasktracker& && && &停止tasktracker
stopping tasktracker
[grid@h4 bin]$ jps
17119 DataNode
[grid@h4 bin]$ hadoop-daemon.sh start tasktracker& && &&&启动tasktracker
starting tasktracker, logging to /home/grid/hadoop-0.20.2/bin/../logs/hadoop-grid-tasktracker-h4.out
[grid@h4 bin]$ jps
27829 TaskTracker& && && && && && && && && && && && && & 已经重新启动,pid都改变了
17119 DataNode
[grid@h4 bin]$ pwd
/home/grid/hadoop-0.20.2/bin
10.均衡负载
[grid@h4 bin]$ start-balancer.sh
starting balancer, logging to /home/grid/hadoop-0.20.2/bin/../logs/hadoop-grid-balancer-h4.out
场合:新增节点 或 节点故障&&把所有数据块重新均衡负载到各各节点上,包括新增节点。例如 几个G数据,均衡负载十几分钟
Leonarding
天津&autumn
分享技术~成就梦想
招聘 : 认证徽章论坛徽章:45
论坛徽章:3
都按命令测试过了,好东西。谢谢楼主分享
招聘 : 认证徽章论坛徽章:45
myhome1998 发表于
都按命令测试过了,好东西。谢谢楼主分享
必须好干货~~~收藏 用时 方便
招聘 : 论坛徽章:0
leonarding 发表于
我是猎头顾问Shela,大数据、数据挖掘类的职位比较熟悉~欢迎加QQ交流~
招聘 : 认证徽章论坛徽章:45
猎头-Shela 发表于
我是猎头顾问Shela,大数据、数据挖掘类的职位比较熟悉~欢迎加QQ交流~
& &欢迎交流
论坛徽章:5
单独启动/停止 jobtracker& & hadoop-daemon.sh start tasktracker/hadoop-daemon.sh stop tasktracker
jobtracker的启动/停止,应该是:& &&&hadoop-daemon.sh start jobtracker/hadoop-daemon.sh stop jobtracker
itpub.net All Right Reserved. 北京皓辰网域网络信息技术有限公司版权所有    
 北京市公安局海淀分局网监中心备案编号: 广播电视节目制作经营许可证:编号(京)字第1149号

我要回帖

更多关于 hdfs 查看文件大小 的文章

 

随机推荐