2018护士证注册时间册

当前位置: >
解析:大数据技术Hadoop面试题 14:26:34&|&编辑:hely&|&查看:&|&评论:
在互联网高速发展的今天,很多人还没有搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联网的时候,大数据时代又来了。
在互联网高速发展的今天,很多人还没有搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联网的时候,又来了。大数据已经无处不在,随之而来的就是人才的急需,以下是关于的面试问题,大家可以再面试前参考。
单项选择题
1. 下面哪个程序负责 HDFS 数据存储。
a)NameNode& &b)Jobtracker& &c)Datanode& &d)secondaryNameNode&& e)tasktracker
2. HDfS 中的 block 默认保存几份?
a)3 份 b)2 份 c)1 份 d)不确定
3. 下列哪个程序通常与 NameNode 在一个节点启动?
a)SecondaryNameNode& &b)DataNode&& c)TaskTracker&& d)Jobtracker
4. Hadoop 作者
a)Martin Fowler& &b)Kent Beck&& c)Doug cutting
5. HDFS 默认 Block Size
a)32MB& &b)64MB&& c)128MB
6. 下列哪项通常是集群的最主要瓶颈
a)CPU b)网络 c)磁盘 d)内存
7. 关于 SecondaryNameNode 哪项是正确的?
a)它是 NameNode 的热备
b)它对内存没有要求
c)它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
d)SecondaryNameNode 应与 NameNode 部署到一个节点
8. 下列哪项可以作为集群的管理工具
a)Puppet& &b)Pdsh& &c)Cloudera Manager&& d)Zookeeper
9. 配置机架感知的下面哪项正确
a)如果一个机架出问题,不会影响数据读写
b)写入数据的时候会写到不同机架的 DataNode 中
c)MapReduce 会根据机架获取离自己比较近的网络数据
10. Client 端上传文件的时候下列哪项正确
a)数据经过 NameNode 传递给 DataNode
b)Client 端将文件切分为 Block,依次上传
c)Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
11. 下列哪个是 Hadoop 运行的模式
a)单机版 b)伪分布式 c)分布式
12. Cloudera 提供哪几种安装 CDH 的方法
a)Cloudera manager b)Tar ball c)Yum d)Rpm
13. Ganglia 不仅可以进行监控,也可以进行告警。( )
14. Block Size 是不可以修改的。( )
15. Nagios 不可以监控 Hadoop 集群,因为它不提供 Hadoop 支持。( )
16. 如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。( )
17. Cloudera CDH 是需要付费使用的。( )
18. Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。( )
19. Hadoop 支持数据的随机读写。( )
20. NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。( )
21. NameNode 本地磁盘保存了 Block 的位置信息。( )
22. DataNode 通过长连接与 NameNode 保持通信。( )
23. Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。( )
24. Slave 节点要存储数据,所以它的磁盘越大越好。( )
25. hadoop dfsadmin &report 命令用于检测 HDFS 损坏块。( )
26. Hadoop 默认调度器策略为 FIFO( )
27. 集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运行。( )
28. 因为 HDFS 有多个副本,所以 NameNode 是不存在单点问题的。( )
29. 每个 map 槽就是一个线程。( )
30. Mapreduce 的 input split 就是一个 block。( )
31. NameNode 的 Web UI 端口是 50030,它通过 jetty 启动的 Web 服务。( )
32. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。( )
33. DataNode 首次加入 cluster 的时候,如果 log 中报告不兼容文件版本,那需要 NameNode执行&Hadoop namenode -format&操作格式化磁盘。( )
相关阅读:
搜索"raincent"或扫描下面的二维码当前位置:
时间: 13:43:42
发布:blogchong | 分类:原创-Hadoop大数据 | 评论:2 | 浏览:
谢谢分享,很精彩
Post: 23:06:09
虫虫,写的很好啊!我和你的看法一致
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
博客虫微信公众号
阅读最多文章后使用快捷导航没有帐号?
查看: 12854|回复: 28
腾讯hadoop大数据开发工程师面试总结。
注册会员, 积分 182, 距离下一级还需 18 积分
论坛徽章:4
腾讯大数据开发工程师面试回来总结:
1. 有几种设计模式,各有什么优缺点,适合什么场景。
2. 怎样在命令行输入一个hadoop命令,调试这个命令的执行情况。
3. hadoop是怎样实现文件的 put 和 get 操作的。
其他有些问题,记得不清楚了。
问了蛮多 java 问题,都答不上来。
现在正重新学习 java 中。
欢迎大家 探讨上述问题,或者晒出自己 大数据 hadoop的面试经验。
大家互相学习,提高面试成功率。
这是我们终极奋斗目标,努力吧,同志们!!!
建议 老虎 拉家企业进来招聘,给大家 学以致用的机会。
新手上路, 积分 45, 距离下一级还需 5 积分
论坛徽章:5
谢谢分享,看来要加强JAVA的学习了.
注册会员, 积分 182, 距离下一级还需 18 积分
论坛徽章:4
有 hadoop 的面试题目,讲得比较好。
注册会员, 积分 182, 距离下一级还需 18 积分
论坛徽章:4
这篇文章 讲 java 设计模式的,通俗易懂。
有例子,看了后, 有醍醐灌顶的效果。
新手上路, 积分 10, 距离下一级还需 40 积分
论坛徽章:1
没做个java开发啊,只能自学了!
注册会员, 积分 101, 距离下一级还需 99 积分
论坛徽章:6
java的设计模式那么多,怎么能答得上每一种的优缺点,只能说常用的几个,要是能答上几个就不错了
注册会员, 积分 79, 距离下一级还需 121 积分
论坛徽章:1
不错不错 谢谢分享 学习了
新手上路, 积分 28, 距离下一级还需 22 积分
论坛徽章:0
有用,加油
金牌会员, 积分 1202, 距离下一级还需 1798 积分
论坛徽章:11
看来JAVA技术要好,才能在这块找到好的工作啊
新手上路, 积分 40, 距离下一级还需 10 积分
论坛徽章:1
java是基本功,就如砌砖。掌握设计模式是熟练砌各种墙壁。所以如果是面试hadoop工程师(java方向,还有数据分析方向,挖掘方向,算法方向等)的必定需要扎实的java基础。
扫一扫加入本版微信群本文由&– 小峰原创翻译,转载请看清文末的转载要求,欢迎参与我们的!
你准备好面试了吗?呀,需要Hadoop的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。
Q1.什么是Hadoop?
Hadoop是一个框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop包括以下内容:
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统):HDFS允许你以一种分布式和冗余的方式存储大量数据。例如,1 GB(即1024 MB)文本文件可以拆分为16 * 128MB文件,并存储在Hadoop集群中的8个不同节点上。每个分裂可以复制3次,以实现容错,以便如果1个节点故障的话,也有备份。HDFS适用于顺序的“一次写入、多次读取”的类型访问。
MapReduce:一个计算框架。它以分布式和并行的方式处理大量的数据。当你对所有年龄& 18的用户在上述1 GB文件上执行查询时,将会有“8个映射”函数并行运行,以在其128 MB拆分文件中提取年龄& 18的用户,然后“reduce”函数将运行以将所有单独的输出组合成单个最终结果。
YARN(Yet Another Resource Nagotiator,又一资源定位器):用于作业调度和集群资源管理的框架。
Hadoop生态系统,拥有15多种框架和工具,如Sqoop,Flume,Kafka,Pig,Hive,Spark,Impala等,以便将数据摄入HDFS,在HDFS中转移数据(即变换,丰富,聚合等),并查询来自HDFS的数据用于商业智能和分析。某些工具(如Pig和Hive)是MapReduce上的抽象层,而Spark和Impala等其他工具则是来自MapReduce的改进架构/设计,用于显著提高的延迟以支持近实时(即NRT)和实时处理。
Q2.为什么组织从传统的数据仓库工具转移到基于Hadoop生态系统的智能数据中心?
Hadoop组织正在从以下几个方面提高自己的能力:
现有数据基础设施:
主要使用存储在高端和昂贵硬件中的“structured data,结构化数据”
主要处理为ETL批处理作业,用于将数据提取到RDBMS和数据仓库系统中进行数据挖掘,分析和报告,以进行关键业务决策。
主要处理以千兆字节到兆字节为单位的数据量
基于Hadoop的更智能的数据基础设施,其中
结构化(例如RDBMS),非结构化(例如images,PDF,docs )和半结构化(例如logs,XMLs)的数据可以以可扩展和容错的方式存储在较便宜的商品机器中。
可以通过批处理作业和近实时(即,NRT,200毫秒至2秒)流(例如Flume和Kafka)来摄取数据。
数据可以使用诸如Spark和Impala之类的工具以低延迟(即低于100毫秒)的能力查询。
可以存储以兆兆字节到千兆字节为单位的较大数据量。
这使得组织能够使用更强大的工具来做出更好的业务决策,这些更强大的工具用于获取数据,转移存储的数据(例如聚合,丰富,变换等),以及使用低延迟的报告功能和商业智能。
Q3.更智能&更大的数据中心架构与传统的数据仓库架构有何不同?
传统的企业数据仓库架构
基于Hadoop的数据中心架构
Q4.基于Hadoop的数据中心的好处是什么?
随着数据量和复杂性的增加,提高了整体SLA(即服务水平协议)。例如,“Shared Nothing”架构,并行处理,内存密集型处理框架,如Spark和Impala,以及YARN容量调度程序中的资源抢占。
缩放数据仓库可能会很昂贵。添加额外的高端硬件容量以及获取数据仓库工具的许可证可能会显著增加成本。基于Hadoop的解决方案不仅在商品硬件节点和开源工具方面更便宜,而且还可以通过将数据转换卸载到Hadoop工具(如Spark和Impala)来补足数据仓库解决方案,从而更高效地并行处理大数据。这也将释放数据仓库资源。
探索新的渠道和线索。Hadoop可以为数据科学家提供探索性的沙盒,以从社交媒体,日志文件,电子邮件等地方发现潜在的有价值的数据,这些数据通常在数据仓库中不可得。
更好的灵活性。通常业务需求的改变,也需要对架构和报告进行更改。基于Hadoop的解决方案不仅可以灵活地处理不断发展的模式,还可以处理来自不同来源,如社交媒体,应用程序日志文件,image,PDF和文档文件的半结构化和非结构化数据。
Q5.大数据解决方案的关键步骤是什么?
提取数据,存储数据(即数据建模)和处理数据(即数据加工,数据转换和查询数据)。
从各种来源提取数据,例如:
RDBM(Relational Database Management Systems)关系数据库管理系统,如Oracle,MySQL等。
ERPs(Enterprise Resource Planning)企业资源规划(即ERP)系统,如SAP。
CRM(Customer Relationships Management)客户关系管理系统,如Siebel,Salesforce等
社交媒体Feed和日志文件。
平面文件,文档和图像。
并将其存储在基于“Hadoop分布式文件系统”(简称HDFS)的数据中心上。可以通过批处理作业(例如每15分钟运行一次,每晚一次,等),近实时(即100毫秒至2分钟)流式传输和实时流式传输(即100毫秒以下)去采集数据。
Hadoop中使用的一个常用术语是“Schema-On-Read”。这意味着未处理(也称为原始)的数据可以被加载到HDFS,其具有基于处理应用的需求在处理之时应用的结构。这与“Schema-On-Write”不同,后者用于需要在加载数据之前在RDBM中定义模式。
数据可以存储在HDFS或NoSQL数据库,如HBase。HDFS针对顺序访问和“一次写入和多次读取”的使用模式进行了优化。HDFS具有很高的读写速率,因为它可以将I / O并行到多个驱动器。HBase在HDFS之上,并以柱状方式将数据存储为键/值对。列作为列家族在一起。HBase适合随机读/写访问。在Hadoop中存储数据之前,你需要考虑以下几点:
数据存储格式:有许多可以应用的文件格式(例如CSV,JSON,序列,AVRO,Parquet等)和数据压缩算法(例如snappy,LZO,gzip,bzip2等)。每个都有特殊的优势。像LZO和bzip2的压缩算法是可拆分的。
数据建模:尽管Hadoop的无模式性质,模式设计依然是一个重要的考虑方面。这包括存储在HBase,Hive和Impala中的对象的目录结构和模式。Hadoop通常用作整个组织的数据中心,并且数据旨在共享。因此,结构化和有组织的数据存储很重要。
元数据管理:与存储数据相关的元数据。
多用户:更智能的数据中心托管多个用户、组和应用程序。这往往导致与统治、标准化和管理相关的挑战。
Hadoop的处理框架使用HDFS。它使用“Shared Nothing”架构,在分布式系统中,每个节点完全独立于系统中的其他节点。没有共享资源,如CPU,内存以及会成为瓶颈的磁盘存储。Hadoop的处理框架(如Spark,Pig,Hive,Impala等)处理数据的不同子集,并且不需要管理对共享数据的访问。 “Shared Nothing”架构是非常可扩展的,因为更多的节点可以被添加而没有更进一步的争用和容错,因为每个节点是独立的,并且没有单点故障,系统可以从单个节点的故障快速恢复。
Q6.你会如何选择不同的文件格式存储和处理数据?
设计决策的关键之一是基于以下方面关注文件格式:
使用模式,例如访问50列中的5列,而不是访问大多数列。
可并行处理的可分裂性。
块压缩节省存储空间vs读/写/传输性能
模式演化以添加字段,修改字段和重命名字段。
CSV文件通常用于在Hadoop和外部系统之间交换数据。CSV是可读和可解析的。 CSV可以方便地用于从数据库到Hadoop或到分析数据库的批量加载。在Hadoop中使用CSV文件时,不包括页眉或页脚行。文件的每一行都应包含记录。CSV文件对模式评估的支持是有限的,因为新字段只能附加到记录的结尾,并且现有字段不能受到限制。CSV文件不支持块压缩,因此压缩CSV文件会有明显的读取性能成本。
JSON记录与JSON文件不同;每一行都是其JSON记录。由于JSON将模式和数据一起存储在每个记录中,因此它能够实现完整的模式演进和可拆分性。此外,JSON文件不支持块级压缩。
序列文件以与CSV文件类似的结构用二进制格式存储数据。像CSV一样,序列文件不存储元数据,因此只有模式进化才将新字段附加到记录的末尾。与CSV文件不同,序列文件确实支持块压缩。序列文件也是可拆分的。序列文件可以用于解决“小文件问题”,方式是通过组合较小的通过存储文件名作为键和文件内容作为值的XML文件。由于读取序列文件的复杂性,它们更适合用于在飞行中的(即中间的)数据存储。
注意:序列文件是以Java为中心的,不能跨平台使用。
适合于有模式的长期存储。Avro文件存储具有数据的元数据,但也允许指定用于读取文件的独立模式。启用完全的模式进化支持,允许你通过定义新的独立模式重命名、添加和删除字段以及更改字段的数据类型。Avro文件以JSON格式定义模式,数据将采用二进制JSON格式。Avro文件也是可拆分的,并支持块压缩。更适合需要行级访问的使用模式。这意味着查询该行中的所有列。不适用于行有50+列,但使用模式只需要访问10个或更少的列。Parquet文件格式更适合这个列访问使用模式。
Columnar格式,例如RCFile,ORC
RDBM以面向行的方式存储记录,因为这对于需要在获取许多列的记录的情况下是高效的。如果在向磁盘写入记录时已知所有列值,则面向行的写也是有效的。但是这种方法不能有效地获取行中的仅10%的列或者在写入时所有列值都不知道的情况。这是Columnar文件更有意义的地方。所以Columnar格式在以下情况下工作良好
在不属于查询的列上跳过I / O和解压缩
用于仅访问列的一小部分的查询。
用于数据仓库型应用程序,其中用户想要在大量记录上聚合某些列。
RC和ORC格式是专门用Hive写的而不是通用作为Parquet。
Parquet文件
Parquet文件是一个columnar文件,如RC和ORC。Parquet文件支持块压缩并针对查询性能进行了优化,可以从50多个列记录中选择10个或更少的列。Parquet文件写入性能比非columnar文件格式慢。Parquet通过允许在最后添加新列,还支持有限的模式演变。Parquet可以使用Avro API和Avro架构进行读写。
所以,总而言之,相对于其他,你应该会更喜欢序列,Avro和Parquet文件格式;序列文件用于原始和中间存储,Avro和Parquet文件用于处理。
译文链接:
英文原文:
翻译作者:&– 小峰
[&转载必须在正文中标注并保留原文链接、译文链接和译者等信息。]【hadoop/大数据开发工程师面试|hadoop/大数据开发工程师面试技巧】-看准网
hadoop/大数据开发工程师
我觉得面试困难
面试总体感觉很好
我觉得面试困难
面试总体感觉很好
这里的内容对你有帮助?
分享你的工作感受,让更多的职场新人获得帮助!
或,让我们更懂你,就能更多帮到你
我觉得面试困难
面试总体感觉很好
或,让我们更懂你,就能更多帮到你
我觉得面试巨难
面试总体感觉很好
或,让我们更懂你,就能更多帮到你
我觉得面试巨难
面试总体感觉很好
该职位相关热门公司
看了该职位的还看了
2654条面试
2552条面试
8754条面试
1302条面试
关注看准官方微信
下载看准官方APP
下载看准APP
点评工资任意看
查看5,608,972家公司的员工评价,预先看清你想去的每一家公司
广告等垃圾信息
违禁信息(色情、欺诈、非法传销)
不友善内容(诽谤,人身攻击、骚扰、侵犯隐私)
违法、政治敏感内容
感谢您的举报,我们会尽快处理~
扫描二维码下载&&&&&搜索&“”&&&&&等老鸟等你来聊
小贴士:问题描述的越清楚,越能吸引老鸟来回答哟~
请输入问题
向老鸟咨询
把你关于hadoop/大数据开发工程师的问题大胆的提出来,这里的老鸟很乐意为你解答~
写下问题吧~
提交成功!请静静等待老鸟们回答~
扫描二维码
分享到朋友圈,邀请微信好友帮忙解答

我要回帖

更多关于 2018护士证注册时间 的文章

 

随机推荐