hadoop大数据平台只需要掌握hadoop吗

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>大数据 >>hadoop大数据平台只需要掌握hadoop吗

hadoop大数据平台只需要掌握hadoop吗

来源：蜘蛛抓取(WebSpider) 时间：2018-04-05 21:01 标签：大数据hadoop入门

&&在现如今，随着IT移动互联网飞速的发展和进步，从而导致数据量也越来越多，那么，对于这一情况大讲台带你了解大数据hadoop到底是什么？下面我们一起来看一下吧。
&&Hadoop是一个能够对大量数据进行分布式处理的软件框架。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序，在大数据领域应用比较多。
&&一、对于Hadoop是什么
&&1、它是一个文件系统。相比较WinXP，它可以同时利用多台机器。
&&2、装WinXP，1个WinXP系统你只能装在一台机器上。而1个Hadoop系统可以装在很多机器上，也可以装在一台机上。
&&3、用WinXP保存一个文件，肯定就保存在一台机器上，而Hadoop就不同，一个文件可能会被拆成很多份，分别放在不同的机器上，而你通过Hadoop不需要知道他们具体存到哪里，可以象WinXP下一样访问1个文件。
&&4、安装WinXP只需要1台标准的个人电脑做为它的底层需求，而Hadoop还需要Linux系统+JAVA做为它的底层需求。
&&5、WinXP有个漂亮的操作界面，非富的其它功能，一般用户都可以很方便的使用它；而Hadoop没有这些，很多功能都要通过敲命令，甚至写代码才能使用它。
&&二、对于Hadoop较专业的解释
&&虽然Spark与Hadoop有相似之处，但它提供了具有有用差异的一个新的集群计算框架。
&&1、首先，Spark是为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重用工作数据集（比如机器学习算法）的工作负载。为了优化这些类型的工作负载，Spark引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟。
&&2、Spark还引进了名为弹性分布式数据集(RDD)的抽象。RDD是分布在一组节点中的只读对象集合。这些集合是弹性的，如果数据集一部分丢失，则可以对它们进行重建。重建部分数据集的过程依赖于容错机制，该机制可以维护"血统"（即允许基于数据衍生过程重建部分数据集的信息）。RDD被表示为一个Scala对象，并且可以从文件中创建它；一个并行化的切片（遍布于节点之间）；另一个RDD的转换形式；并且最终会彻底改变现有RDD的持久性，比如请求缓存在内存中。
&&3、Spark中的应用程序称为驱动程序，这些驱动程序可实现在单一节点上执行的操作或在一组节点上并行执行的操作。与Hadoop类似，Spark支持单节点集群或多节点集群。对于多节点操作，Spark依赖于Mesos集群管理器。Mesos为分布式应用程序的资源共享和隔离提供了一个有效平台。该设置充许Spark与Hadoop共存于节点的一个共享池中。
&&4、Hadoop的核心就是HDFS和MapReduce，而两者只是理论基础，不是具体可使用的高级应用，Hadoop旗下有很多经典子项目，比如HBase、Hive等，这些都是基于HDFS和MapReduce发展出来的。
&&三、Hadoop优点有哪些
&&Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。
&&Hadoop是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。
&&Hadoop是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。
&&Hadoop还是可伸缩的，能够处理PB级数据。
&&此外，Hadoop依赖于社区服务，因此它的成本比较低，任何人都可以使用。
&&Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：
&&高可靠性：Hadoop按位存储和处理数据的能力值得人们信赖。
&&高扩展性：Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
&&高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
&&高容错性：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
&&低成本：与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。
&&最后大讲台大数据总结来说Hadoop适合应用于大数据存储和大数据分析的应用，想要了解更多关于Hadoop的新闻资讯，请关注大讲台官网、微信等平台，大讲台IT职业在线学习教育平台为您提供权威的大数据和视频教程系统，通过大讲台金牌讲师在线录制的第一套自适应Hadoop在线视频课程系统，让你快速掌握Hadoop从入门到精通大数据开发实战技能。
看完这篇文章的人大多学习了
关注微信@大讲台
关注大数据研习社查看: 121085|回复: 64
hadoop前景、毕业薪酬，你所关心的
主题帖子积分
高级会员, 积分 1247, 距离下一级还需 3753 积分
高级会员, 积分 1247, 距离下一级还需 3753 积分
关于hadoop能学到什么。&&主要学习hadoop中的四大框架:hdfs、mapreduce、hive、hbase。这四大框架是hadoop最最核心的，学习难度最大的，也是应用最广泛的。除此之外，还有其他的框架，目前的教学大纲中暂不深入讲解，会根据社会需要在课程中考虑是否增加其他框架的教学。总之，我们的课程是根据社会需要来的，都经过了精挑细选，大纲的每个知识点都是多位老师深思熟虑、反复讨论才确定的，绝对不会设置华而不实的课程学习。这个请同学们方向，安心学习吧。
& & 关于就业前景的问题。&&hadoop是云计算的基础。绝大部分的云计算中的分布式存储和计算都是使用hadoop的。简单的理解的话，云计算是系统工程的蓝图，hadoop是基础层面的重要的必不可少的工具。并且，云计算在国家十二五规划中也有重要章节讨论，全国各省市都有自己的云计算发展规划。云计算已经被提高到国家中长期发展战略规划中，大家可以想象以后hadoop和云计算的岗位有多少。正是因为云计算发展如此如火如荼，我们赶紧推出与此相关的课程，目的就是“造富”一方学子。越早学习，越早受益。
& & 毕业后的薪酬如何。&&目前，云计算还处于发展阶段。国内对云计算和大数据做的特别好的厂家还不多，大家对云计算的研究还处于起步阶段，我们正好赶在这种技术发展的成长期，机会还是很多的，相应的薪酬起点比较高。我不能鲁莽的下一个最低薪酬底线，告诉大家“这是hadoop起薪啊，你们都比这个高”。这不是我的风格。但是，我可以说肯定如果大家有两三年工作经验，起薪拿到10k左右还是很正常的。当然，这个要跟个人能力、面试技巧、入职的公司等都有关系。我说的可不是最低薪酬，再次声明。
& & 学习hadoop有什么基础。&&hadoop需要具备javaSE的基础知识，对于javaEE(jsp/servlet/三大框架)没有要求。需要熟练使用linux系统(第一天课程有复习linux操作的时间)。大体上，有这些预备知识就够了。严格的说，只需要具备javaSE知识就足够了。我掌握的javaSE不够好，行吗？没问题！hadoop中对java的运用是非常浅的，只要跟着老师课堂思路走就行了。非常适合于在校生、刚毕业的、和已有IT工作经验的朋友们，学习hadoop比学习javaEE的基础要求低，学习难度低。
& & 学完后能达到什么水平。&&我们的培养目标简单概括就是hadoop大数据管理员和hadoop开发工程师。hadoop大数据管理员类似于数据库的dba，负责hadoop集群的运行维护工作。hadoop开发工程师是负责编写hadoop程序的，实现算法的。相当于工作两三年的水平。
& & 学完hadoop会影响javaEE工作吗。&&严格的讲，hadoop与javaEE是两个不同的发展思路，hadoop倾向于底层数据处理部分，javaEE负责系统开发，二者前后相继，没有交叉，相辅相成。一部分javaEE学员，入职面试时是javaEE知识，入职后立刻要求研究hadoop。大家可以想想社会的需求是多么迫切，hadoop人才是多么匮乏！
& & 学习hadoop对算法和数据结构要求高吗？一般海量数据的处理都是自定义存储结构，实现自己的算法，这是业界的通用处理思路。这对我们普通程序员而言要求还是很高的。hadoop的优点就是进行了封装，我们写的算法都是偏向于业务的，不需要创造算法。因此大可放心。但是，大家以后工作的公司可能不使用hadoop去处理大数据，这时候对算法和数据结构的要求就高了。
& & 总之，大家以一颗平常心对待学习hadoop，安心学习。只要坚持学学习，等待你们的将是多多的人民币，有时候会超出你的想象！
欢迎加入about云群、、，云计算爱好者群，亦可关注||
主题帖子积分
本帖最后由 pig2 于
19:07 编辑
目前很多公司招hadoop相关人员都是要有工作经验的，对于小白来说，不太好找
公司关注经验的背后是你能不能干活，可以关注咱们的版本
about云分析discuz论坛apache日志hadoop大数据项目：需求分析说明书
about云分析discuz论坛apache日志hadoop大数据项目：概要设计说明书
欢迎加入about云群、，云计算爱好者群，关注
主题帖子积分
只要坚持学学习，得到的有时候会超出你的想象！
加油！加油！
主题帖子积分
嗯，很好，知道了
主题帖子积分
注册会员, 积分 140, 距离下一级还需 60 积分
注册会员, 积分 140, 距离下一级还需 60 积分
不错，写的很务实
主题帖子积分
中级会员, 积分 405, 距离下一级还需 595 积分
中级会员, 积分 405, 距离下一级还需 595 积分
自学or报班？？？
主题帖子积分
高级会员, 积分 1247, 距离下一级还需 3753 积分
高级会员, 积分 1247, 距离下一级还需 3753 积分
自学or报班？？？
有java基础的还是建议自学，就不用浪费钱。
欢迎加入about云群、、，云计算爱好者群，亦可关注||
主题帖子积分
中级会员, 积分 405, 距离下一级还需 595 积分
中级会员, 积分 405, 距离下一级还需 595 积分
有java基础的还是建议自学，就不用浪费钱。
但是没有呢，目前自学java,看样子也不难！！！
主题帖子积分
中级会员, 积分 592, 距离下一级还需 408 积分
中级会员, 积分 592, 距离下一级还需 408 积分
只要坚持学学习，得到的有时候会超出你的想象！
主题帖子积分
中级会员, 积分 409, 距离下一级还需 591 积分
中级会员, 积分 409, 距离下一级还需 591 积分
加油，坚持！
主题帖子积分
新手上路, 积分 27, 距离下一级还需 23 积分
新手上路, 积分 27, 距离下一级还需 23 积分
在自学当中，发现论坛资源还是很充足的
经常参与各类话题的讨论，发帖内容较有主见
经常帮助其他会员答疑
积极宣传本站，为本站带来更多注册会员
活跃且尽责职守的版主
为论坛做出突出贡献的会员
站长推荐 /3
会员注册不成功的原因
新手获取积分方法
hadoop3.0学习：零基础安装部署hadoop集群
Powered byHadoop大数据平台运维工程师须掌握的基本命令集分享-Hadoop-@大数据资讯
你好，游客
Hadoop大数据平台运维工程师须掌握的基本命令集分享
作者：yinxin
　　本博文收集和整理了在日常维护集群时运维工程师需要掌握的最基本的hadoop管理与维护的相关命令，在此分享出来供大家参考学习~博主也是刚刚接触hadoop不久，如有问题欢迎批评指正~非常感谢
　　1、列出所有Hadoop Shell支持的命令
　　$ bin/hadoop fs -help
　　2、显示关于某个命令的详细信息
　　$ bin/hadoop fs -help command-name
　　3、用户可使用以下命令在指定路径下查看历史日志汇总
　　$ bin/hadoop job -history output-dir #这条命令会显示作业的细节信息，失败和终止的任务细节。
　　4、关于作业的更多细节，比如成功的任务，以及对每个任务的所做的尝试次数等可以用下面的命令查看
　　$ bin/hadoop job -history all output-dir
　　5、格式化一个新的分布式文件系统：
　　$ bin/hadoop namenode -format
　　6、在分配的NameNode上，运行下面的命令启动HDFS：
　　$ bin/start-dfs.sh #脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动DataNode守护进程。
　　7、在分配的JobTracker上，运行下面的命令启动Map/Reduce：
　　$ bin/start-mapred.sh #脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动TaskTracker守护进程。
　　8、在分配的NameNode上，执行下面的命令停止HDFS：
　　$ bin/stop-dfs.sh #脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止DataNode守护进程。
　　9、在分配的JobTracker上，运行下面的命令停止Map/Reduce：
　　$ bin/stop-mapred.sh #脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止TaskTracker守护进程。
　　10、创建一个名为 /foodir 的目录
　　$ bin/hadoop dfs -mkdir /foodir
　　11、创建一个名为 /foodir 的目录
　　$ bin/hadoop dfs -mkdir /foodir
　　12、查看名为 /foodir/myfile.txt 的文件内容
　　$ bin/hadoop dfs -cat /foodir/myfile.txt
　　13、将集群置于安全模式
　　$ bin/hadoop dfsadmin -safemode enter
　　14、显示Datanode列表
　　$ bin/hadoop dfsadmin -report
　　15、使Datanode节点datanode name退役
　　$ bin/hadoop dfsadmin -decommission datanodename
　　16、bin/hadoop dfsadmin -help 命令能列出所有当前支持的命令。
　　比如：
　　* -report：报告HDFS的基本统计信息。有些信息也可以在NameNode Web服务首页看到。
　　* -safemode：虽然通常并不需要，但是管理员的确可以手动让NameNode进入或离开安全模式。
　　* -finalizeUpgrade：删除上一次升级时制作的集群备份。
　　17、显式地将HDFS置于安全模式
　　$ bin/hadoop dfsadmin -safemode
　　18、在升级之前，管理员需要用(升级终结操作)命令删除存在的备份文件
　　$ bin/hadoop dfsadmin -finalizeUpgrade
　　19、能够知道是否需要对一个集群执行升级终结操作。
　　$ dfsadmin -upgradeProgress status
　　20、使用-upgrade选项运行新的版本
　　$ bin/start-dfs.sh -upgrade
　　21、如果需要退回到老版本,就必须停止集群并且部署老版本的Hadoop，用回滚选项启动集群
　　$ bin/start-dfs.h -rollback
　　22、下面的新命令或新选项是用于支持配额，前两个是管理员命令。
　　* dfsadmin -setquota ...
　　把每个目录配额设为N。这个命令会在每个目录上尝试，如果N不是一个正的长整型数，目录不存在或是文件名或者目录超过配额则会产生错误报告。
　　* dfsadmin -clrquota ...
　　为每个目录删除配额。这个命令会在每个目录上尝试，如果目录不存在或者是文件，则会产生错误报告。如果目录原来没有设置配额不会报错。
　　* fs -count -q ...
　　使用-q选项，会报告每个目录设置的配额以及剩余配额。如果目录没有设置配额，会报告none和inf。
　　23、创建一个hadoop档案文件
　　$ hadoop archive -archiveName NAME *
　　#-archiveName NAME 要创建的档案的名字。
　　#src 文件系统的路径名，和通常含正则表达的一样。
　　#dest 保存档案文件的目标目录。
　　24、递归地拷贝文件或目录
　　$ hadoop distcp
　　srcurl 源uri
　　desturl 目标uri
　　25、运行HDFS文件系统检查工具(fsck tools)
　　用法：hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]
　　命令选项描述
　　---------------------------------------------------------------------------------------------------------------------
　　检查的起始目录。
　　-move 移动受损文件到/lost+found
　　-delete 删除受损文件。
　　-openforwrite 打印出写打开的文件。
　　-files 打印出正被检查的文件。
　　-blocks 打印出块信息报告。
　　-locations 打印出每个块的位置信息。
　　-racks 打印出data-node的网络拓扑结构。
　　26、用于和Map Reduce作业交互和命令(jar)
　　用法：hadoop job [GENERIC_OPTIONS] [-submit ] | [-status ] |
　　[-counter ] | [-kill ] |
　　[-events &#-of-events&] | [-history [all] ] |
　　[-list [all]] | [-kill-task ] | [-fail-task ]
　　命令选项描述
　　-----------------------------------------------------------------------------------------------------------------------------
　　-submit 提交作业
　　-status 打印map和reduce完成百分比和所有计数器
　　-counter 打印计数器的值
　　-kill 杀死指定作业
　　-events &#-of-events& 打印给定范围内jobtracker接收到的事件细节
　　-history [all] -history 打印作业的细节、失败及被杀死原因的细节
　　-list [all] -list all 显示所有作业 -list只显示将要完成的作业
　　-kill-task 杀死任务被杀死的任务不会不利于失败尝试
　　-fail-task 使任务失败被失败的任务会对失败尝试不利
　　27、运行pipes作业
　　用法：hadoop pipes [-conf ] [-jobconf , , ...] [-input ]
　　[-output ] [-jar ] [-inputformat ] [-map ] [-partitioner ]
　　[-reduce ] [-writer ] [-program ] [-reduces ]
　　命令选项描述
　　-----------------------------------------------------------------------------------------------------------------------------
　　-conf 作业的配置
　　-jobconf , , ... 增加/覆盖作业的配置项
　　-input 输入目录
　　-output 输出目录
　　-jar Jar文件名
　　-inputformat InputFormat类
　　-map Java Map类
　　-partitioner Java Partitioner
　　-reduce Java Reduce类
　　-writer Java RecordWriter
　　-program 可执行程序的URI
　　-reduces reduce个数
　　28、打印版本信息。
　　用法：hadoop version
　　29、hadoop脚本可用于调调用任何类。
　　用法：hadoop CLASSNAME #运行名字为CLASSNAME的类。
　　30、运行集群平衡工具管理员可以简单的按Ctrl-C来停止平衡过程(balancer)
　　用法：hadoop balancer [-threshold ]
　　命令选项描述
　　--------------------------------------------------------------------------------
　　-threshold 磁盘容量的百分比。这会覆盖缺省的阀值。
　　31、获取或设置每个守护进程的日志级别(daemonlog)。
　　用法：hadoop daemonlog -getlevel
　　用法：hadoop daemonlog -setlevel
　　命令选项描述
　　-----------------------------------------------------------------------------------------------------------------------------
　　-getlevel 打印运行在的守护进程的日志级别
　　-setlevel 设置运行在的守护进程的日志级别
　　32、运行一个HDFS的datanode。
　　用法：hadoop datanode [-rollback]
　　命令选项描述
　　-----------------------------------------------------------------------------------------------------------------------------
　　-rollback 将datanode回滚到前一个版本。这需要在停止datanode，分发老的hadoop版本之后使用。
　　33、运行一个HDFS的dfsadmin客户端
　　用法：hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode enter | leave
　　| get | wait] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress status |
　　details | force] [-metasave filename] [-setQuota ...] [-clrQuota ...] [-help [cmd]]
　　34、运行MapReduce job Tracker节点(jobtracker)。
　　用法：hadoop jobtracker
　　35、运行namenode。有关升级，回滚，升级终结的更多信息请参考官方升级和回滚的文档信息
　　用法：hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]
　　命令选项描述
　　-----------------------------------------------------------------------------------------------------------------------------
　　-format 格式化namenode。它启动namenode，格式化namenode，之后关闭namenode
　　-upgrade 分发新版本的hadoop后，namenode应以upgrade选项启动
　　-rollback 将namenode回滚到前一版本。这个选项要在停止集群，分发老的hadoop版本后使用
　　-finalize finalize会删除文件系统的前一状态。最近的升级会被持久化，rollback选项将再不可用，升级终结操作之后会停掉namenode
　　-importCheckpoint 从检查点目录装载镜像并保存到当前检查点目录，检查点目录由fs.checkpoint.dir指定
　　36、运行HDFS的secondary namenode。
　　用法：hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]
　　-----------------------------------------------------------------------------------------------------------------------------
　　命令选项描述
　　-checkpoint [force] 如果EditLog的大小&= fs.checkpoint.size启动Secondary namenode的检查点过程。若使用了-force将不考虑EditLog的大小
　　-geteditsize 打印EditLog大小。
　　37、运行MapReduce的task Tracker节点。
　　用法：hadoop tasktracker
　　38、显式地将HDFS置于安全模式
　　$ bin/hadoop dfsadmin -safemode
　　39、在升级之前，管理员需要用(升级终结操作)命令删除存在的备份文件
　　$ bin/hadoop dfsadmin -finalizeUpgrade
　　40、能够知道是否需要对一个集群执行升级终结操作。
　　$ dfsadmin -upgradeProgress status
　　41、使用-upgrade选项运行新的版本
　　$ bin/start-dfs.sh -upgrade
　　42、如果需要退回到老版本,就必须停止集群并且部署老版本的Hadoop，用回滚选项启动集群
　　$ bin/start-dfs.h -rollback
相关新闻 & & &
& (03月29日)
& (03月26日)
& (04月02日)
& (03月27日)
　　　同意评论声明
　　　发表
尊重网上道德，遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款开发者博客：
Hadoop里，所有计算都必须按照一个map、一个group by、一个aggregate或者这种计算序列来写。这和穿上紧身衣一样，多憋得慌啊。许多计算用其他模型其实更适合。忍受紧身衣的唯一原因就是，可以扩展到极大极大的数据集。可你的数据集实际上很可能根本远远够不上那个数量级。可是呢，因为Hadoop和大数据是热词，世界有一半的人都想穿上紧身衣，即使他们根本不需要。可我的数据有好几百MB呢！Excel都装不下对Excel很大可不是什么大数据。有很多好工具——我喜欢用的是基于的Pandas。它可以将几百MB数据以高效的向量化格式加载到内存，在我已经3年的老笔记本上，一眨眼的功夫，Numpy就能完成1亿次浮点计算。Matlab和R也是很棒的工具。数百MB数据一般用一个简单的Python脚本逐行读取文件、处理，然后写到了一个文件就行了。可我的数据有10G呢！我刚买了一台笔记本电脑。16G内存花了141.98美元，256GB SSD多收200美元。另外，如果在Pandas里加载一个10GB的csv文件，实际在内存里并没有那么大——你可以将 “” 这样的数值串存为4位或者8位整数，“35723”存为8位双精度。最差情况下，你还可以不同时将所有数据都一次加载到内存里。可我的数据有100GB/500GB/1TB！一个2T的硬盘才94.99美元，4T是169.99。买一块，加到桌面电脑或者服务器上，然后装上PostgreSQL（PG 是免费开源人，而且它的表是以文件形式存储）。 Hadoop的适用范围远小于SQL和Python脚本从计算的表达能力来说，Hadoop比SQL差多了。Hadoop里能写的计算，在SQL或者简单的Python脚本都可以更轻松地写出来。 SQL是直观的查询语言，没有太多抽象，业务分析师和程序员都很常用。SQL查询往往非常简单，而且一般也很快——只要数据库正确地做了索引，要花几秒钟的查询都不太多见。 Hadoop没有任何索引的概念，它只知道全表扫描。而且Hadoop抽象层次太多了——我之前的项目尽在应付Java内存错误、内存碎片和集群竞用了，实际的数据分析工作反而没了时间。如果你的数据结构不是SQL表的形式（比如纯文本、JSON、二进制），一般写一小段Python或者Ruby脚本按行处理更直接。保存在多个文件里，逐个处理即可。SQL不适用的情况下，从编程来说Hadoop也没那么糟糕，但相比Python脚本仍然没有什么优势。除了难以编程，Hadoop还一般总是比其他技术方案要慢。只要索引用得好，SQL查询非常快。比如要计算join，PostgreSQL只需查看索引（如果有），然后查询所需的每个键。而Hadoop呢，必须做全表扫描，然后重排整个表。排序通过多台机器之间分片可以加速，但也带来了跨多机数据流处理的开销。如果要处理二进制文件，Hadoop必须反复访问namenode。而简单的Python脚本只要反复访问文件系统即可。可我的数据超过了5TB！你的命可真苦——只能苦逼地折腾Hadoop了，没有太多其他选择（可能还能用许多硬盘容量的高富帅机器来扛），而且其他选择往往贵得要命（脑海中浮现出IOE等等字样……）。用Hadoop唯一的好处是扩展。如果你的数据是一个数TB的单表，那么全表扫描是Hadoop的强项。此外的话，请关爱生命，尽量远离Hadoop。它带来的烦恼根本不值，用传统方法既省时又省力。
开发者博客：
浏览: 198137 次
来自: 深圳
(window.slotbydup=window.slotbydup || []).push({
id: '4773203',
container: s,
size: '200,200',
display: 'inlay-fix'

hadoop大数据平台只需要掌握hadoop吗

我要回帖

更多关于大数据hadoop入门的文章

随机推荐

hadoop大数据平台只需要掌握hadoop吗

我要回帖

更多关于 大数据hadoop入门 的文章

随机推荐

更多关于大数据hadoop入门的文章