在hadoop里有自动排序为什么起不

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>Hadoop >>在hadoop里有自动排序为什么起不

在hadoop里有自动排序为什么起不

来源：蜘蛛抓取(WebSpider) 时间：2018-03-20 09:27 标签：为什么要用hadoop

在 SegmentFault，学习技能、解决问题
每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。
问题对人有帮助，内容完整，我也想知道答案
问题没有实际价值，缺少关键内容，没有改进余地
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
可以在一些节点打些Log看看都发生了什么。不过有的时候也可能是集群卡住了，要等待一下。
分享到微博？
关闭理由：
删除理由：
忽略理由：
推广（招聘、广告、SEO 等）方面的内容
与已有问题重复（请编辑该提问指向已有相同问题）
答非所问，不符合答题要求
宜作评论而非答案
带有人身攻击、辱骂、仇恨等违反条款的内容
无法获得确切结果的问题
非开发直接相关的问题
非技术提问的讨论型问题
其他原因（请补充说明）
我要该，理由是：
在 SegmentFault，学习技能、解决问题
每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。hadoop-2.2.0 NameNode起不来，请大家帮忙看下
[问题点数：40分，结帖人yinan9]
hadoop-2.2.0 NameNode起不来，请大家帮忙看下
[问题点数：40分，结帖人yinan9]
不显示删除回复
显示所有回复
显示星级回复
显示得分回复
只显示楼主
2014年12月高性能开发大版内专家分月排行榜第二
匿名用户不能发表回复！|> 博客详情
摘要: 总结的一系列的关于hadoop的常见错误和解决办法，有网上摘录的有自己犯过的~
1，错误：java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后
14:32:53,877 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool BP--192.168.1.181-6 (storage id DS-2.168.1.191-0515421) service to hadoop-master/192.168.1.181:9000 java.io.IOException: Incompatible clusterIDs in /data/dfs/data: namenode clusterID = CID-d1448b9e-da0f-499e-b1d4-78cb18 datanode clusterID = CID-ff0faa40--b321-98272eb0dee3 at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:391) at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:191) at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:219) at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:837) at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:808) at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:280) at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:222) at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:664) at java.lang.Thread.run(Thread.java:722)
14:32:53,885 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Ending block pool service for: Block pool BP--192.168.1.181-6 (storage id DS-2.168.1.191-0515421) service to hadoop-master/192.168.1.181:9000
14:32:53,889 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool BP--192.168.1.181-6 (storage id DS-2.168.1.191-0515421)
14:32:55,897 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Exiting Datanode
原因：每次namenode format会重新创建一个namenodeId,而data目录包含了上次format时的id,namenode format清空了namenode下的数据,但是没有清空datanode下的数据,导致启动时失败,所要做的就是每次fotmat前,清空data下的所有目录.
解决办法：停掉集群，删除问题节点的data目录下的所有内容。即hdfs-site.xml文件中配置的dfs.data.dir目录。重新格式化namenode。
另一个更省事的办法：先停掉集群，然后将datanode节点目录/dfs/data/current/VERSION中的修改为与namenode一致即可。
2，错误：org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container
14/04/29 02:45:07 INFO mapreduce.Job: Job job_3_0021 failed with state FAILED due to: Application application_3_0021 failed 2 times due to Error launching appattempt_3_. Got exception: org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container.
This token is expired. current time is 8 found 0 at sun.reflect.GeneratedConstructorAccessor30.newInstance(Unknown Source) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) at java.lang.reflect.Constructor.newInstance(Constructor.java:525) at org.apache.hadoop.yarn.api.records.impl.pb.SerializedExceptionPBImpl.instantiateException(SerializedExceptionPBImpl.java:152) at org.apache.hadoop.yarn.api.records.impl.pb.SerializedExceptionPBImpl.deSerialize(SerializedExceptionPBImpl.java:106) at org.apache.hadoop.yarn.server.resourcemanager.amlauncher.AMLauncher.launch(AMLauncher.java:122) at org.apache.hadoop.yarn.server.resourcemanager.amlauncher.AMLauncher.run(AMLauncher.java:249) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:722) . Failing the application. 14/04/29 02:45:07 INFO mapreduce.Job: Counters: 0
问题原因：namenode,datanode时间同步问题
解决办法：多个datanode与namenode进行时间同步，在每台服务器执行：ntpdate time.nist.gov，确认时间同步成功。最好在每台服务器的 /etc/crontab 中加入一行： 0 2 * * * root ntpdate time.nist.gov && hwclock –w
23:12:39,837 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: NameNode metrics system shutdown complete.
23:12:39,838 FATAL org.apache.hadoop.hdfs.server.namenode.NameNode: Exception in namenode join java.io.IOException: There appears to be a gap in the edit log. We expected txid 1, but got txid 41. at org.apache.hadoop.hdfs.server.namenode.MetaRecoveryContext.editLogLoaderPrompt(MetaRecoveryContext.java:94) at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadEditRecords(FSEditLogLoader.java:184) at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadFSEdits(FSEditLogLoader.java:112) at org.apache.hadoop.hdfs.server.namenode.FSImage.loadEdits(FSImage.java:733) at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:647) at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:264) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:787) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:568) at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:443) at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:491) at org.apache.hadoop.hdfs.server.namenode.NameNode.&init&(NameNode.java:684) at org.apache.hadoop.hdfs.server.namenode.NameNode.&init&(NameNode.java:669) at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1254) at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1320)
23:12:39,842 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 1
原因：namenode元数据被破坏，需要修复解决：恢复一下namenode hadoop namenode -recover 一路选择c，一般就OK了
10:21:01,479 INFO [IPC Server handler 3 on 45207] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_5_0002_m_ is : 0.-06-23 10:21:01,512 FATAL [IPC Server handler 2 on 45207] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task:
attempt_5_0002_m_ - exited : java.io.IOException: Spill failed at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.checkSpillException(MapTask.java:1540) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1063) at org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:691) at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89) at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112) at com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:180) at com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:1) at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for attempt_5_0002_m__spill_53.out at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:398) at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150) at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131) at org.apache.hadoop.mapred.YarnOutputFiles.getSpillFileForWrite(YarnOutputFiles.java:159) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1573) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:852) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:-23 10:21:01,513 INFO [IPC Server handler 2 on 45207] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Diagnostics report from attempt_5_0002_m_: Error: java.io.IOException: Spill failed at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.checkSpillException(MapTask.java:1540) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1063) at org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:691) at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89) at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112) at com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:180) at com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:1) at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for attempt_5_0002_m__spill_53.out at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:398) at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150) at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131) at org.apache.hadoop.mapred.YarnOutputFiles.getSpillFileForWrite(YarnOutputFiles.java:159) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1573) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:852) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:-23 10:21:01,514 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_5_0002_m_: Error: java.io.IOException: Spill failed at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.checkSpillException(MapTask.java:1540) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1063) at org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:691) at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89) at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112) at com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:180) at com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:1) at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for attempt_5_0002_m__spill_53.out at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:398) at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150) at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131) at org.apache.hadoop.mapred.YarnOutputFiles.getSpillFileForWrite(YarnOutputFiles.java:159) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1573) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:852) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:-23 10:21:01,516 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_5_0002_m_ TaskAttempt Transitioned from RUNNING to FAIL_CONTAINER_CLEANUP
原因：错误很明显，磁盘空间不足，但郁闷的是，进各节点查看，磁盘空间使用不到40%，还有很多空间。
郁闷很长时间才发现，原来有个map任务运行时输出比较多，运行出错前，硬盘空间一路飙升，直到100%不够时报错。随后任务执行失败，释放空间，把任务分配给其它节点。正因为空间被释放，因此虽然报空间不足的错误，但查看当时磁盘还有很多剩余空间。
这个问题告诉我们，运行过程中的监控很重要。
10:00:32,181 INFO [org.apache.hadoop.mapred.MapTask] - Ignoring exception during close for& java.io.IOException: Spill failed at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.checkSpillException(MapTask.java:1540) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.flush(MapTask.java:1447) at org.apache.hadoop.mapred.MapTask$NewOutputCollector.close(MapTask.java:699) at org.apache.hadoop.mapred.MapTask.closeQuietly(MapTask.java:1997) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:773) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339) at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:235) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:334) at java.util.concurrent.FutureTask.run(FutureTask.java:166) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603) at java.lang.Thread.run(Thread.java:722) Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for output/spill0.out at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:398) at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150) at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131) at org.apache.hadoop.mapred.MROutputFiles.getSpillFileForWrite(MROutputFiles.java:146) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1573) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:852) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1510)
错误原因：本地磁盘空间不足非hdfs (我是在myeclipse中调试程序，本地tmp目录占满) 解决办法：清理、增加空间
6，错误：org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for
14/05/08 18:24:59 INFO mapreduce.Job: Task Id : attempt_0_0016_m_, Status : FAILED Error: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for attempt_0_0016_m__spill_0.out at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:398) at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150) at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131) at org.apache.hadoop.mapred.YarnOutputFiles.getSpillFileForWrite(YarnOutputFiles.java:159) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1573) at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.flush(MapTask.java:1467) at org.apache.hadoop.mapred.MapTask$NewOutputCollector.close(MapTask.java:699) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:769) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)
Container killed by the ApplicationMaster.
原因：两种可能，hadoop.tmp.dir或者data目录存储空间不足。
解决办法：看了一下我的dfs状态，data使用率不到40%，所以推测是hadoop.tmp.dir空间不足，导致无法创建Jog临时文件。查看core-site.xml发现没有配置hadoop.tmp.dir，因此使用的是默认的/tmp目录，在这目录一旦服务器重启数据就会丢失，因此需要修改。添加： &property& &name&hadoop.tmp.dir&/dir& &value&/data/tmp&/value& &/property& 然后重新格式化：hadoop namenode -format 重启。
7，错误：java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try.
12:21:41,820 WARN [Thread-115] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Graceful stop failed org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try. (Nodes: current=[192.168.1.191:58.1.192:50010], original=[192.168.1.191:58.1.192:50010]). The current failed datanode replacement policy is DEFAULT, and a client may configure this via 'dfs.client.block.write.replace-datanode-on-failure.policy' in its configuration. at org.apache.hadoop.mapreduce.jobhistory.JobHistoryEventHandler.handleEvent(JobHistoryEventHandler.java:514) at org.apache.hadoop.mapreduce.jobhistory.JobHistoryEventHandler.serviceStop(JobHistoryEventHandler.java:332) at org.apache.hadoop.service.AbstractService.stop(AbstractService.java:221) at org.apache.hadoop.service.ServiceOperations.stop(ServiceOperations.java:52) at org.apache.hadoop.service.ServiceOperations.stopQuietly(ServiceOperations.java:80) at org.apache.hadoop.service.CompositeService.stop(CompositeService.java:159) at org.apache.hadoop.service.CompositeService.serviceStop(CompositeService.java:132) at org.apache.hadoop.service.AbstractService.stop(AbstractService.java:221) at org.apache.hadoop.mapreduce.v2.app.MRAppMaster.shutDownJob(MRAppMaster.java:548) at org.apache.hadoop.mapreduce.v2.app.MRAppMaster$JobFinishEventHandler$1.run(MRAppMaster.java:599) Caused by: java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try. (Nodes: current=[192.168.1.191:58.1.192:50010], original=[192.168.1.191:58.1.192:50010]). The current failed datanode replacement policy is DEFAULT, and a client may configure this via 'dfs.client.block.write.replace-datanode-on-failure.policy' in its configuration. at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.findNewDatanode(DFSOutputStream.java:860) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.addDatanode2ExistingPipeline(DFSOutputStream.java:925) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.setupPipelineForAppendOrRecovery(DFSOutputStream.java:1031) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DFSOutputStream.java:823) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:475)
原因：无法写入；我的环境中有3个datanode，备份数量设置的是3。在写操作时，它会在pipeline中写3个机器。默认replace-datanode-on-failure.policy是DEFAULT,如果系统中的datanode大于等于3，它会找另外一个datanode来拷贝。目前机器只有3台，因此只要一台datanode出问题，就一直无法写入成功。
解决办法：修改hdfs-site.xml文件，添加或者修改如下两项： &property& &name&dfs.client.block.write.replace-datanode-on-failure.enable&/name& &value&true&/value& &/property& &property& &name&dfs.client.block.write.replace-datanode-on-failure.policy&/name& &value&NEVER&/value& &/property&
对于dfs.client.block.write.replace-datanode-on-failure.enable，客户端在写失败的时候，是否使用更换策略，默认是true没有问题。对于，dfs.client.block.write.replace-datanode-on-failure.policy，default在3个或以上备份的时候，是会尝试更换结点尝试写入datanode。而在两个备份的时候，不更换datanode，直接开始写。对于3个datanode的集群，只要一个节点没响应写入就会出问题，所以可以关掉。
8，错误：DataXceiver error processing WRITE_BLOCK operation
15:21:30,378 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: hadoop-datanode1:50010ataXceiver error processing WRITE_BLOCK operation src: /192.168.1.193:34147 dest: /192.168.1.191:50010 java.io.IOException: Premature EOF from inputStream at org.apache.hadoop.io.IOUtils.readFully(IOUtils.java:194) at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.doReadFully(PacketReceiver.java:213) at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.doRead(PacketReceiver.java:134) at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.receiveNextPacket(PacketReceiver.java:109) at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receivePacket(BlockReceiver.java:435) at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receiveBlock(BlockReceiver.java:693) at org.apache.hadoop.hdfs.server.datanode.DataXceiver.writeBlock(DataXceiver.java:569) at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.opWriteBlock(Receiver.java:115) at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.processOp(Receiver.java:68) at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:221) at java.lang.Thread.run(Thread.java:722)
原因：文件操作超租期，实际上就是data stream操作过程中文件被删掉了。
解决办法：修改hdfs-site.xml （针对2.x版本，1.x版本属性名应该是：dfs.datanode.max.xcievers）： &property& &name&dfs.datanode.max.transfer.threads&/name& &value&8192&/value& &/property& 拷贝到各datanode节点并重启datanode即可
9，错误：java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write
14:28:09,386 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: hadoop-datanode1:50010ataXceiver error processing READ_BLOCK operation src: /192.168.1.191:48854 dest: /192.168.1.191:50010 java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write. ch : java.nio.channels.SocketChannel[connected local=/192.168.1.191:50010 remote=/192.168.1.191:48854] at org.apache.hadoop.net.SocketIOWithTimeout.waitForIO(SocketIOWithTimeout.java:246) at org.apache.hadoop.net.SocketOutputStream.waitForWritable(SocketOutputStream.java:172) at org.apache.hadoop.net.SocketOutputStream.transferToFully(SocketOutputStream.java:220) at org.apache.hadoop.hdfs.server.datanode.BlockSender.sendPacket(BlockSender.java:546) at org.apache.hadoop.hdfs.server.datanode.BlockSender.sendBlock(BlockSender.java:710) at org.apache.hadoop.hdfs.server.datanode.DataXceiver.readBlock(DataXceiver.java:340) at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.opReadBlock(Receiver.java:101) at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.processOp(Receiver.java:65) at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:221) at java.lang.Thread.run(Thread.java:722)
原因：IO超时
解决方法：修改hadoop配置文件hdfs-site.xml，增加dfs.datanode.socket.write.timeout和dfs.socket.timeout两个属性的设置。 &property& &name&dfs.datanode.socket.write.timeout&/name& &value&6000000&/value& &/property&
&property& &name&dfs.socket.timeout&/name& &value&6000000&/value& &/property&
注意: 超时上限值以毫秒为单位。0表示无限制。
10，两次以上格式化造成NameNode 和 DataNode namespaceID 不一致。
报错：ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /var/lib/hadoop-0.20/cache/hdfs/dfs/data: namenode namespaceID = ; datanode namespaceID =
解决方法1：修改$hadoop.tmp.dir& & 下的dfs/data/current/VERSION 文件中namespaceID 使其一致。解决方法2：这个有点残暴，就是清空hadoop.tmp.dir这个目录，在我这里是/home/work/hadoop_tmp 分析：上面是很多新手经常遇到的问题，hadoop.tmp.dir是什么？下面给大家详细看一下：我是通过图1操，vim hdfs-site.xml
& & & & & & & & & & & & & &&& & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & &图1
查看hdfs.xml文件内容的.
图2是hdfs.xml文件的内容，位于hadoop/conf文件夹下。
& & & & & & & & & & & & & & & & & & & & &&& & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & &图2
hadoop.tmp.dir这个代表的意思hadoop的存放目录，类似我们的数据是放在本地文件中的C盘还是D盘。但是因为Linux特殊的文件系统，所以存放在了/home/work/hadoop_tmp文件夹下。上面我们懂得了，hadoop.tmp.dir它的意思，那么我们进一步
进入通过 vim dfs/data/current/VERSION
编辑下面内容：修改namenodeID即可。 &
11，DataNode 或者 JobTracker 出了故障单独启动
& && &&&hadoop-daemon.sh start datanode & && &&&hadoop-daemon.sh start jobtracker
12，.动态添加DataNode 动态将某个节点加入到集群中
& && &&&hadoop-daemon.sh --config ./conf start datanode & && &&&hadoop-daemon.sh --config ./conf start tasktracker 相关内容还可以查看
13，在运行过程中发现error:unmappable character for&&encoding UTF8&
由于java 程序不是utf8，所以在提交后不能解析的原因，将eclipse 编码设置成utf8： &
这里交给大家该如何修改：通过Window-》preference &
通过上上面操作，我们找到workspace，然后修改编码即可
14，用window 提交eclipse 任务发现不通过：
原因：本地用户administrator（本机windows用户）想要远程操作hadoop系统，没有权限引起的。
解决办法： 1、如果是测试环境，可以取消hadoop hdfs的用户权限检查。打开conf/hdfs-site.xml，找到dfs.permissions属性修改为false（默认为true）OK了。（1.2.1 版本只有这个方法可行），如何操作可以参考第一个问题。 &
2、修改hadoop location参数，在advanced parameter选项卡中，找到hadoop.job.ugi项，将此项改为启动hadoop的用户名即可 3 修改window 机器的用户名为 hadoop 用户名。 15， 1用eclipse&连接远程集群连接不上 1.除了防火墙 2.权限修改 3.ip需要设置为静态 4.检查集群是否开启
16，运行过程中发现Java heap space OutOfMemory
修改 hadoop-env.sh 文件将：export HADOOP_CLIENT_OPTS="-Xmx128m $HADOOP_CLIENT_OPTS" 改成：export HADOOP_CLIENT_OPTS="-Xmx2048m $HADOOP_CLIENT_OPTS"
17，eclipse 运行中发现 Name node is&&in safe mode
org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /tmp/hadoop-SYSTEM/mapred/system. Name node is in safe mode.
The ratio of reported blocks 0.9412 has not reached the threshold 0.9990. Safe mode will be turned off automatically.
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.deleteInternal(FSNamesystem.java:1992)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.delete(FSNamesystem.java:1972)
at org.apache.hadoop.hdfs.server.namenode.NameNode.delete(NameNode.java:792)
at sun.reflect.GeneratedMethodAccessor5.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:563)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1388)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1384)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1382)
&&:bin/hadoop dfsadmin -safemode leave (解除安全模式)
在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可。 safemode参数说明： enter - 进入安全模式 leave - 强制NameNode离开安全模式 get -& &返回安全模式是否开启的信息 wait - 等待，一直到安全模式结束。
解决方案：bin/hadoop dfsadmin -safemode leave&
18， Invalid Hadoop R please click 'Configure Hadoop install directory' or fill in library location input field
解决办法：eclipse window-&preferences - & Map/Reduce&&选择hadoop根目录
19， storage directory does not exist or is not accessible.
Bad connection to FS. command aborted. exception: Call to dp01-.168.13.134:9000 failed on connection exception: java.net.ConnectException: Connection refused: no further information
ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory D:\tmp\hadoop-SYSTEM\dfs\name is in an inconsistent
state: storage directory does not exist or is not accessible.
重新格式化&&bin/hadoop namenode -format&&（小心不要拼错）
INFO org.apache.hadoop.hbase.util.FSUtils: Waiting for dfs to exit safe mode... :bin/hadoop dfsadmin -safemode leave (解除安全模式)
21，win7下 ssh启动不了&&错误:ssh: connect to host localhost port 22: Connection refused
&&输入windows 登录用户名
22，启动hadoop时没有NameNode的可能原因：（1） NameNode没有格式化（2）环境变量配置错误（3） Ip和hostname绑定失败（4）hostname含有特殊符号如何.(符号点)，会被误解析
23，地址占用报错：org.apache.hadoop.hdfs.server.namenode.NameNode: Address already in use 解决方法：查找被占用的端口号对应的PID：netstat –tunl &&Pkill -9 PID &&实在不行就killall -9 java
24，safeMode 报错：
bin/hadoop fs -put ./input input
put: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/input. Name node is in safe mode.
hadoop dfsadmin -safemode leave
解决方法： NameNode在启动的时候首先进入安全模式，如果dataNode丢失的block达到一定的比例（1-dfs.safemode.threshold.pct），则系统一直处于安全模式状态，即只读状态。 dfs.safemode.threshold.pct（缺省值0.999f）表示HDFS启动的时候，如果DataNode上报的block个数达到了元数据记录的block个数的0999倍才可以离开安全模式，否则一直是这种只读模式。如果设置为1，则HDFS一直处于安全模式。
下面这行摘录自NameNode启动时的日志（block上报比例1达到了阈值0.999）
The ratio of reported blocks 1.0000 has reached the threshold 0.9990. Safe mode will be turned off automatically in 14 seconds.
有两种方法离开这种安全模式：（1）修改dfs.safeMode.threshold.pct为一个比较小的值，缺省是0.999；（2） hadoop dfsadmin –safemode leave命令强制离开
用户可通过dfsadmin –safemode value来操作安全模式，参数value说明如下： Enter : 进入安全模式 Leave ：强制NameNode离开安全模式 Get ：返回安全模式是否开启的信息 Wait：等待，一直到安全模式结束。
25，could only be replicatied to 0 nodes, instead of 1 报错： hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop .ipc.RemoteException: java.io.IOException: ... could only be replicated to 0 nodes, instead of 1 ... 可能出现的现象：用jps查看进程都正常。但是用web查看的话，live nodes 为0，这说明datanode没有正常启动，可是datanode进程又启动了。
解决方法1：（1）防火墙原因： & && && &&&永久关闭防火墙命令：chkconfig iptables stop （2）namespaceid不一致（3）磁盘空间原因： & && && &&&df –ah& && &#查看磁盘空间如果是磁盘空间不够，则调整磁盘空间（像下图就是磁盘空间不够） &
如果上述方法不行，可用以下方法（只不过会丢失数据，慎用） A. 先运行stop-all.sh B. 格式化namenode，不过在这之前先删除原目录，即core-site.xml下配置的&name&hadoop.tmp.dir&/name&指向的目录，删除后切记重新建立配置的空目录，然后运行命令hadoop namenode-format。
解决方法2：
删除所有节点dfs.data.dir和dfs.tmp.dir目录（默认为tmp/dfs/data和tmp/dfs/tmp）下的数据文件；然后重新hadoop namenode -format 格式化节点；然后启动。
如果是端口访问的问题，你应该确保所用的端口都打开，比如hdfs://machine1:9000/、5之类的。执行#iptables -I INPUT -p tcp --dport 9000 -j ACCEPT 命令。如果还有报错：hdfs.DFSClient: Exception in createBlockOutputStream java.net.ConnectException: Connection refused；应该是datanode上的端口不能访问，到datanode上修改iptables：#iptables -I INPUT -s machine1 -p tcp -j ACCEPT
还有可能是防火墙的限制集群间的互相通信。尝试关闭防火墙。/etc/init.d/iptables stop
最后还有可能磁盘空间不够了，请查看 df -al
我在解决这个问题的时候还有人说：先后启动namenode、datanode可以解决这个问题（本人尝试发现没用，大家可以试试）$hadoop-daemon.sh start namenode ； $hadoop-daemon.sh start datanode
26，启动时报错java.net. UnknownHostException 原因分析：通过localhost.localdomain根本无法映射到一个IP地址。解决方法：查看/etc/hosts，将主机名hostname添加到hosts文件中。
27，启动时报错： java.io.IOException: File jobtracker.info could only be replicated to 0 nodes, instead of 1。解决方法：首先，检查防火墙是否关闭，是否对各节点的通信产生了影响；其次，可以检查namenode和datanode中的namespaceID的值是否相同，在不同的情况下，会造成该问题，修改为相同的值后，重启该节点；然后，将safemode设置为off状态 Hadoop dfsadmin –safemode leave 此外，还需检查/etc/hosts文件中主机名的映射是否正确，不要使用127.0.0.1或localhost。将safemode设置为off状态可以有两种方法：执行上面的命令可以强制设置为off状态，或者在hdfs-site.xml文件中添加如下代码，将safemode的threshold.pct设置为较小的值，这种方法避免了在执行hadoop过程中经常性遇到错误Name node is in safe mode而导致需强制将safemode置为off。
&property&& &&
& && &&name&dfs.safemode.threshold.pct&/name&& &&
& && &&value&0.95f&/value&& &&
&/property&& &
28，ip和域名解析问题也会造成File jobtracker.info could only be replicated to 0 nodes, instead of 1的问题，此时要检查/etc/hosts文件中主机名的映射是否正确，不要使用127.0.0.1或localhost。
29，报错：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out. 结果：执行任务时，任务卡死在reduce上，不执行。原因：任务会在最后将所有的reduce task 复制到一台机器上，做最后总的reduce，此时需要ip和主机域名的配置正确。解决方法：将个节点的ip和主机名配置正确，不能使用127.0.0.1或localhost，使用内网ip可加快通信速度。
30，hive执行报错： java.lang.OutOfMemoryError: GC overhead limit exceeded 原因：这个是jdk6新增的错误类型，是发生在GC占用大量时间为释放很小空间的时候发生的，是一种保护机制。解决方法：关闭该功能，可以添加JVM的启动参数来限制使用内存：在mapred-site.xml里新增项：mapred.child.java.opts，内容：-XX:-UseGCOverheadLimit
31，datanode节点TaskTracker任务启动，但是DataNode任务为启动
这一般是由于对hadoop进行升级后导致的，需要删除hadoop.tmp.dir所对应的文件夹，然后对namenode重新格式化，删除之前先将数据导出，否则数据就over了。
32，hadoop集群在namenode格式化（bin/hadoop namenode -format）后重启集群会出现如下
Incompatible namespaceIDS in ... :namenode namespaceID = ... ,datanode namespaceID=...
错误，原因是格式化namenode后会重新创建一个新的namespaceID,以至于和datanode上原有的不一致。解决方法：
删除datanode dfs.data.dir目录（默认为tmp/dfs/data）下的数据文件
修改dfs.data.dir/current/VERSION 文件，把namespaceID修成与namenode上相同即可（log错误里会有提示）
重新指定新的dfs.data.dir目录
33，hadoop集群启动start-all.sh的时候，slave总是无法启动datanode，并会报错：
... could only be replicated to 0 nodes, instead of 1 ...
就是有节点的标识可能重复（个人认为这个错误的原因）。也可能有其他原因，一下解决方法请依次尝试，我是解决了。解决方法：
删除所有节点dfs.data.dir和dfs.tmp.dir目录（默认为tmp/dfs/data和tmp/dfs/tmp）下的数据文件；然后重新hadoop namenode -format 格式化节点；然后启动。
如果是端口访问的问题，你应该确保所用的端口都打开，比如hdfs://machine1:9000/、5之类的。执行#iptables -I INPUT -p tcp --dport 9000 -j ACCEPT 命令。如果还有报错：hdfs.DFSClient: Exception in createBlockOutputStream java.net.ConnectException: Connection refused；应该是datanode上的端口不能访问，到datanode上修改iptables：#iptables -I INPUT -s machine1 -p tcp -j ACCEPT
还有可能是防火墙的限制集群间的互相通信。尝试关闭防火墙。/etc/init.d/iptables stop
最后还有可能磁盘空间不够了，请查看 df -al
我在解决这个问题的时候还有人说：先后启动namenode、datanode可以解决这个问题（本人尝试发现没用，大家可以试试）$hadoop-daemon.sh start namenode ； $hadoop-daemon.sh start datanode
34，程序执行出现Error: java.lang.NullPointerException 空指针异常，确保java程序的正确。变量什么的使用前先实例化声明，不要有数组越界之类的现象。检查程序。
35，执行自己的程序的时候，（各种）报错，请确保一下情况：
前提都是你的程序是正确通过编译的
集群模式下，请把要处理的数据写到HDFS里，并且确保HDFS路径正确
指定执行的jar包的入口类名（我不知道为什么有时候不指定也是可以运行的）
正确的写法类似：
$ hadoop jar myCount.jar myCount input output
36，ssh无法正常通信的问题，可以看看这个&
37，程序编译问题，各种包没有的情况，请确保你把hadoop目录下和hadoop/lib目录下的jar包都有引入。（具体可看）
38，Hadoop启动datanode时出现Unrecognized option: -jvm 和 Could not create the Java virtual machine. 在hadoop安装目录/bin/hadoop中有如下一段shell: View Code SHELL
CLASS='org.apache.hadoop.hdfs.server.datanode.DataNode'
if [[ $EUID -eq 0 ]]; then
HADOOP_OPTS="$HADOOP_OPTS -jvm server $HADOOP_DATANODE_OPTS"
HADOOP_OPTS="$HADOOP_OPTS -server $HADOOP_DATANODE_OPTS"
$EUID 这里的用户标识，如果是root的话，这个标识会是0，所以尽量不要使用root用户来操作hadoop就好了。这也是我在配置篇里提到不要使用root用户的原因。
39，如果出现终端的错误信息是：
ERROR hdfs.DFSClient: Exception closing file /user/hadoop/musicdata.txt : java.io.IOException: All datanodes 10.210.70.82:50010 are bad. Aborting...
还有jobtracker log的报错信息
Error register getProtocolVersion java.lang.IllegalArgumentException: Duplicate metricsName:getProtocolVersion
和可能的一些警告信息：
WARN hdfs.DFSClient: DataStreamer Exception: java.io.IOException: Broken pipe WARN hdfs.DFSClient: DFSOutputStream ResponseProcessor exception for block blk_3java.io.IOException: Connection reset by peer WARN hdfs.DFSClient: Error Recovery for block blk_3 bad datanode[0] 10.210.70.82:50010 put: All datanodes 10.210.70.82:50010 are bad. Aborting...
解决办法：
查看dfs.data.dir属性所指的路径是否磁盘已经满了，如果满了则进行处理后再次尝试hadoop fs -put数据。
如果相关磁盘没有满，则需要排查相关磁盘没有坏扇区，需要检测。
40，如果在执行hadoop的jar程序时得到报错信息：
java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.NullWritable, recieved org.apache.hadoop.io.LongWritable 或者类似： Status : FAILED java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.Text
那么你需要学习hadoop数据类型和 map/reduce模型的基本知识。我的这篇读书笔记里边中间部分有介绍hadoop定义的数据类型和自定义数据类型的方法(主要是对writable类的学习和了解)；和这篇里边说的MapReduce的类型和格式。也就是《hadoop权威指南》这本书的第四章Hadoop I/O和第七章MapReduce的类型和格式。如果你急于解决这个问题，我现在也可以告诉你迅速的解决之道，但这势必影响你以后开发：确保一下数据的一致：
... extends Mapper... public void map(k1 k, v1 v, OutputCollector output)... ... ...extends Reducer... public void reduce(k2 k,v2 v,OutputCollector output)... ... job.setMapOutputKeyClass(k2.class); job.setMapOutputValueClass(k2.class);
job.setOutputKeyClass(k3.class); job.setOutputValueClass(v3.class); ...
注意 k* 和 v*的对应。建议还是看我刚才说的两个章节。详细知道其原理。
41，如果碰到datanode报错如下：
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Cannot lock storage /data1/hadoop_data. The directory is already locked.
根据错误提示来看，是目录被锁住，无法读取。这时候你需要查看一下是否有相关进程还在运行或者slave机器的相关hadoop进程还在运行，结合linux这俩命令来进行查看：
netstat -nap ps -aux | grep 相关PID
如果有hadoop相关的进程还在运行，就使用kill命令干掉即可。然后再重新使用start-all.sh。
42，如果碰到jobtracker报错如下：
Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.
解决方式，修改datanode节点里/etc/hosts文件。简单介绍下hosts格式：每行分为三个部分：第一部分网络IP地址、第二部分主机名或域名、第三部分主机别名操作的详细步骤如下： 1、首先查看主机名称：
cat /proc/sys/kernel/hostname
会看到一个HOSTNAME的属性，把后边的值改成IP就OK，然后退出。 2、使用命令：
hostname ***.***.***.***
星号换成相应的IP。 3、修改hosts配置类似内容如下：
127.0.0.1&&localhost.localdomain& && & localhost ::1& && &localhost6.localdomain6&&localhost6 10.200.187.77& &10.200.187.77& &hadoop-datanode
如果配置后出现IP地址就表示修改成功了，如果还是显示主机名就有问题了，继续修改这个hosts文件，如下图： & 上图提醒下，chenyi是主机名。 & 当在测试环境里，自己再去部署一个域名服务器（个人觉得很繁琐），所以简单地方式，就直接用IP地址比较方便。如果有了域名服务器的话，那就直接进行映射配置即可。如果还是出现洗牌出错这个问题，那么就试试别的网友说的修改配置文件里的hdfs-site.xml文件，添加以下内容： dfs.http.address *.*.*.*:50070 端口不要改，星号换成IP，因为hadoop信息传输都是通过HTTP，这个端口是不变的。
43，如果碰到jobtracker报错如下：
java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code *
这是java抛出的系统返回的错误码，错误码表示的意思详细的请看这里。我这里是些streaming的php程序时遇到的，遇到的错误码是code 2: No such file or directory。即找不到文件或者目录。发现命令竟然忘记使用'php ****' 很坑，另外网上看到也可能是include、require等命令造成。详细的请根据自身情况和错误码修改。
支付宝支付
微信扫码支付
打赏金额: ￥
已支付成功
打赏金额: ￥

在hadoop里有自动排序为什么起不

我要回帖

更多关于为什么要用hadoop 的文章

随机推荐

在hadoop里有自动排序为什么起不

我要回帖

更多关于 为什么要用hadoop 的文章

随机推荐

更多关于为什么要用hadoop 的文章