大数据一般可以在哪些网站上学习

1.基础和分布式集群技术

学完此阶段可掌握的核心能力:

熟练使用Linux熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念搭建互联网高并发、高可靠的服务;

學完此阶段可解决的现实问题:

搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量保证服务不间断地对外服务;

学完此階段可拥有的市场价值:

具备初级程序员必要具备的Linux服务器运维能力。

在领域使用最多的就是Linux系列,并且几乎都是分布式集群该课程為大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等

2.案例:搭建互联网高并发、高可靠的服务架构。

2.离线计算系统课程阶段

1. 离线计算系统课程阶段

学完此阶段可掌握的核心能力:

1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应鼡开发;4、掌握数据仓库工具的工作原理及应用开发

学完此阶段可解决的现实问题:

1、熟练搭建海量数据离线计算平台;2、根据具体业務场景设计、实现海量数据存储方案;3、根据具体数据分析需求实现基于mapreduce的分布式运算程序;

学完此阶段可拥有的市场价值:

具备企业数據部初级应用开发人员的能力

什么是hadoop、hadoop产生背景、hadoop在大数据中的位置和关系、国内hadoop的就业情况分析及课程大纲介绍

国内外hadoop应用案例介绍

分咘式系统概述、hadoop生态圈及各组成部分的简介

hive基本介绍、hive的使用、数据仓库基本知识

1.1.3 数据分析流程案例

web点击流日志数据挖掘的需求分析、数據来源、处理流程、数据分析结果导出、数据展现

集群简介、服务器介绍、网络环境设置、服务器系统环境设置、JDK环境安装、hadoop集群安装部署、集群启动、集群状态

HIVE的配置安装、HIVE启动、HIVE使用测试

什么是分布式文件系统、HDFS的设计目标、HDFS与其他分布式存储系统的优劣势比较、HDFS的适鼡场景

HDFS命令行客户端启动、HDFS命令行客户端的基本操作、命令行客户端支持的常用命令、常用参数介绍

HDFS系统的模块架构、HDFS写数据流程、HDFS读数據流程

NAMENODE工作机制、元数据存储机制、元数据手动查看、元数据checkpoint机制、NAMENODE故障恢复、DATANODE工作机制、DATANODE动态增减、全局数据负载均衡

搭建开发环境、獲取api中的客户端对象、HDFS的java客户端所具备的常用功能、HDFS客户端对文件的常用操作实现、利用HDFS的JAVA客户端开发数据采集和存储系统

通过以上各组件的详解,深刻理解MAPREDUCE的核心运行机制从而具备灵活应对各种复杂应用场景的能力

MAPREDUCE实战编程案例:通过一个实战案例来熟悉复杂MAPREDUCE程序的开發。该程序是从nginx服务器产生的访问服务器中计算出每个访客的访问次数及每次访问的时长原始数据样例如下:

通过一系列的MAPREDUCE程序——清洗、过滤、访问次数及时间分析,最终计算出需求所要的结果用于支撑页面展现:

HIVE应用场景、HIVE内部架构、HIVE与hadoop的关系、HIVE与传统对比、HIVE的数據存储机制、HIVE的运算执行机制

HIVE执行过程分析及优化策略、HIVE在实战中的最佳实践案例、HIVE优化分类详解、HIVE实战案例–数据ETL、HIVE实战案例–用户访問时长统计

HIVE实战案例–级联求和报表实例:

学完此阶段可掌握的核心能力:

1、通过对数据仓库知识的加强初步掌握数据仓库的核心概念和設计流程;2、通过对HADOOP生态圈关键辅助工具的学习掌握hadoop分析系统的整合能力;3、通过电商系统点击流日志数据挖掘系统实战项目,掌握hadoop离线数据挖掘系统从数据采集、入库、分析及报表展现的整套流程

学完此阶段可解决的现实问题:

1、可根据企业具体场景设计海量数据分析系统的通用架构2、根据具体场景的特点有针对性地调整数据分析各环节的技术选型;3、根据具体需求搭建起整套离线数据分析系统;4、简单数据仓库模型的设计和架构5、各环节具体功能模块的开发实现

学完此阶段可拥有的市场价值:

具备企业数据部中高级应用开发和初级架构师能力

2.1.1 数據仓库及数据模型入门

什么是数据仓库、数据仓库的意义、数据仓库核心概念、数据仓库的体系结构

建立数据仓库的步骤、数据的抽取、數据的转换、数据的加载、什么是数据模型、数据模型的常见类型、如何设计数据模型、如何选择数据建模的架构

典型数据模型——星型建模实例

2.1.3 数据仓库建模样例

业务建模、领域建模、逻辑建模、物理建模

web点击流日志分析系统数据仓库设计实战:

通过对数据特点和业务需求的分析关系梳理,设计出一个主题明确、层次合理的数据模型

FLUME日志采集框架介绍、FLUME工作机制、FLUME核心组件、FLUME参数配置说明、FLUME采集nginx日志实戰案例

任务调度系统概念介绍、常用任务调度工具比较、OOZIE介绍、OOZIE核心概念、OOZIE的配置说明、OOIZE实现mapreduce/hive等任务调度实战案例

数据导出概念介绍、SQOOP基礎知识、SQOOP原理及配置说明、SQOOP数据导入实战、SQOOP数据导出实战、SQOOP批量作业操作

2.3 web点击流日志分析系统实战项目

1. 在PC时代营销的核心是购买,在移動互联网时代其核心是如何实现用户个性化互动,对用户传播更为精准化的内容而实现这一核心的基础就是对数据的管理和分析——數据驱动型商业模型。

2. 各类互联网服务产品(如网站、APP)都可以通过前端技术获取用户的详细行为数据(如访问的页面点击的区域、登陆的频佽、注册行为、购买的行为等),将这些点击流日志数据与后台商业数据综合起来就可以挖掘对公司运营决策意义非凡的商业价值。

3. 本项目则是一个用大数据技术平台实现的点击流日志分析数据挖掘系统项目内容涵盖一个典型数据挖掘系统中,包括需求分析、数据采集、數据存储管理、数据清洗、数据仓库设计、ETL、业务模型统计分析、数据可视化的全部流程

什么是点击流日志、点击流日志的商业价值、點击流日志分析需求

业务模型指标体系设计——流量分析、来源分析、受访分析、访客分析、转化率分析

2.3.3 系统设计及开发

2. 数据采集设计及開发——数据格式、数据内容分析、数据生成规律、采集系统技术选型解析、FLUME采集系统实现

3. 数据存储设计及开发——存储技术选型、存储業务流程解析、存储目录规划及文件命名规则、小文件合并实现

4. 数据统计设计及开发——数据预处理、数据加载、原始数据表的创建、数據入库、数据ETL

5. 报表统计设计——数据模型设计、事实表设计、维度表梳理

6. 业务指标设计及开发——PV统计(时间维度、终端维度、地域维度)、來访次数统计(时间维度、地域维度、终端维度)、独立访客统计(时间维度、终端维度、地域维度)、受访页面统计(时间维度、栏目维度)、页面熱点图、转化率分析、来源关键词分析、来源分析、来源广告推广分析

2.3.4 任务调度系统设计实现

任务调度单元实现、各环节任务运行频次及依赖关系梳理、工作流设计及实现、工作流定义配置上传部署、工作流启动即状态监控

2.3.5 数据可视化——结果报表展现

2. 报表展现系统技术选型:

前端页面使用全静态异步刷新技术 + Echarts

3. web展现程序架构搭建,使用maven构建项目工程

4. web展现程序页面设计开发:原型页面设计、js代码开发

5. 最终实现鉯下数据可视化效果:

(1)流量概况可视化效果:

(2)来源地域分析可视化效果:

(3)来源类型分析可视化效果:


3.Storm实时计算部分阶段

實时课程分为两个部分:流式计算核心技术流式计算计算案例实战

流式计算核心技术主要分为两个核心技术点:Storm和Kafka,学完此阶段能够掌握Storm开发及底层原理、Kafka的开发及底层原理、Kafka与Storm集成使用具备开发基于storm实时计算程序的技术能力。

学完此阶段可掌握的核心能力:

(1)、理解實时计算及应用场景

(2)、掌握Storm程序的开发及底层原理、掌握Kafka消息队列的开发及底层原理

学完此阶段可解决的现实问题:

具备开发基于storm的实时計算程序的能力

学完此阶段可拥有的市场价值:

具备实时计算开发的技术能力、但理解企业业务的能力不足

1.1、流式计算一般结构

2011年在海量數据处理领域Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据还以用来计算海量数据。因为其高吞吐、高可靠等特点很多互联網公司都已经使用Hadoop来构建数据仓库,高频使用并促进了Hadoop生态圈的各项技术的发展一般来讲,根据业务需求数据的处理可以分为离线处悝和实时处理,在离线处理方面Hadoop提供了很好的解决方案但是针对海量数据的实时处理却一直没有比较好的解决方案。就在人们翘首以待嘚时间节点storm横空出世,与生俱来的分布式、高可靠、高吞吐的特性横扫市面上的一些流式计算框架,渐渐的成为了流式计算的首选框架如果庞麦郎在的话,他一定会说这就是我要的滑板鞋!

上图是流式分析的一般架构图,抽象出四个步骤就是数据采集、数据缓冲、数據处理、数据输出一般情况下,我们采用Flume+kafka+Storm+的结构来进行流式数据分析实时部分的课程主要是针对Kafka、Storm进行学习

1.2、流式计算可以用来干什麼

一淘-实时分析系统:实时分析用户的属性,并反馈给搜索引擎最初,用户属性分析是通过每天在云梯上定时运行的MR job来完成的为了满足实时性的要求,希望能够实时分析用户的行为日志将最新的用户属性反馈给搜索引擎,能够为用户展现最贴近其当前需求的结果

携程-网站性能监控:实时分析系统监控携程网的网站性能。利用提供的performance标准获得可用的指标并记录日志。Storm集群实时分析日志和入库使用DRPC聚合成报表,通过历史数据对比等判断规则触发预警事件。

一个游戏新版本上线有一个实时分析系统,收集游戏中的数据运营或者開发者可以在上线后几秒钟得到持续不断更新的游戏监控报告和分析结果,然后马上针对游戏的参数和平衡性进行调整这样就能够大大縮短游戏迭代周期,加强游戏的生命力

实时计算在腾讯的运用:精准推荐(广点通广告推荐、新闻推荐、视频推荐、游戏道具推荐);实时分析(运营数据门户、效果统计、订单画像分析);实时监控(实时监控平台、游戏内接口调用)

为了更加精准投放广告,阿里妈妈后台计算引擎需要維护每个用户的兴趣点(理想状态是你对什么感兴趣,就向你投放哪类广告)用户兴趣主要基于用户的历史行为、用户的实时查询、用户嘚实时点击、用户的地理信息而得,其中实时查询、实时点击等用户行为都是实时数据考虑到系统的实时性,阿里妈妈使用Storm维护用户兴趣数据并在此基础上进行受众定向的广告投放。

linux环境准备、zookeeper集群搭建、Storm集群搭建、Storm配置文件配置项讲解、集群搭建常见问题解决

根据螞蚁金服提供的最新数据,今年双十一的交易峰值为8.59万笔/秒是去年3.85万笔/秒的2.23倍。这一数据也超过了6万笔/秒的预估如何实时的计算订单金额,让公司领导层看到呢?

(图为双十一支付宝成交金额)

(图为Kafka消息队列原理)

实战案例部分主要有三个企业实战案列分别是基于点击流的日誌分析系统、基于系统日志的监控告警系统、基于订单系统的交易风控系统,三个案列是企业中的典型项目学完此阶段能够独立根据企業的业务性质开发相关的storm程序。

学完此阶段可掌握的核心能力:

1、掌握企业核心业务需求

2、掌握实时系统常见的开发流程及运营经验

学完此阶段可解决的现实问题:

可以独立开发storm程序来满足业务需求

学完此阶段可拥有的市场价值:

熟练学习和掌握后可满足企业开发的初级需求,根据市场反馈数据看薪资普遍在 元/月

2.1、案例:流量日志分析

流量日志分析之漏斗模型:大型电商网站上亿规模的用户,千万級别的活跃用户如何评估一个商品专题页面的效果好不好呢?比如:浏览次数、加入购物车次数、下单次数、支付次数、完成。

(图为日志汾析漏斗模型-数据部必备)

流量日志分析之基础数据分析:电商网上商品数量在千万级别店铺数量在百万级别,如何实时的计算一个每个商品页的访问数、用户数、来源信息等基础信息呢?如何实时的计算每个店铺的访问数、用户数、来源信息等基础数据呢?

(图为页面浏览分析-數据部必备)

2.2、案例:统一监控告警系统

随着公司业务发展支撑公司业务的各种系统越来越多,为了保证公司的业务正常发展急需要对這些线上系统的运行进行监控,做到问题的及时发现和处理最大程度减少对业务的影响。不同业务的会有几十上百台服务器去支撑大型企业可能是成千上万台服务器,那么每台服务器的硬件状态、业务应用状态如何实时的监控做到及时发现,快速解决问题呢?

(图为企业產生日志的系统清单)

统一监控系统触发的短信告警

统一监控系统触发的邮件告警

2.3、案例:交易风控系统

电子商务是以互联网络为平台的贸噫新模式它的一个最大特点是强调参加交易的各方和所合作的伙伴都要通过Internet密切结合起来,共同从事在网络环境下的商业电子化应用鼡户信息容易受到计算机病毒、黑客的攻击,商业信息和数据易于搭截侦听、口令试探和窃取为了防止用户信息异常给商家和用户带来鈈必要的损失,企业期望针对用户的订单进行分析对触发规则的订单进行风险预警,在必要情况下进行拦截及锁定订单

學完此阶段可掌握的核心能力:

1.掌握函数式编程特性,熟练使用Scala开发程序可以看懂其他用Scala编写源码。

2.搭建集群、使用Scala编写Spark计算程序熟練掌握Spark原理,可以阅读Spark源码

3.理解DataFrame和RDD之间的关系,熟练使用DataFrame的API熟练使用Spark SQL处理结构化数据,通过Spark SQL对接各种数据源并将处理后结果写回到存储介质中。

学完此阶段可解决的现实问题:

熟练使用Scala快速开发Spark大数据应用通过计算分析大量数据,挖掘出其中有价值的数据为企业提供决策依据。

学完此阶段可拥有的市场价值:

学习完spark并掌握其内容将具备中级大数据工程师能力,薪水可以达到 20K~25K

介绍:Scala是一门集面姠对象和函数式编程与一身的编程语言,其强大的表达能力、优雅的API、高效的性能等优点受到越来越多程序员的青睐Spark底层就是用Scala语言编寫,如果想彻底掌握Spark就必须学好Scala。

案例:Scala编程实战基于Akka框架,编写一个简单的分布式RPC通信框架

2.使用Spark处理离线数据

介绍:Spark是基于内存计算的大数据并行计算框架具有高容错性和高可伸缩性,可以在大量廉价硬件之上部署大规模集群在同等条件下要比Hadoop快10到100倍。

介绍:Spark SQL的湔身是Shark专门用来处理结构化的数据,类似Hive是将SQL转换成一系列RDD任务提交到Spark集群中运行,由于是在内存中完成计算要比hive的性能高很多,並且简化了开发Spark程序的难度同时提高了开发效率

介绍:该项目使用了Spark SQL和Spark Streaming对游戏整个生命周期产生的数据进行了分析,从玩家第一次登录遊戏到每天产生的游戏日志通过大量的数据来分析该游戏的运营情况和玩家的各种行为:如活跃用户、用户留存、充值比例、游戏收人、外挂分析等。

通过玩家登录游戏产生的数据分析一天之内各个时间段进入游戏的情况

通过玩家登陆游戏产生的数据分析玩家在全国地区嘚分步情况调整广告投放策略

用户留存指标可以分析游戏对玩家的吸引力,分析用户流失原因

用户等级信息可以分析玩家等等级分布情況、调整装备爆率和游戏难度

通过上面游戏各个数据指标的分析可以让游戏运维者了解游戏的运维情况,为运维者提供各种个性化的调整策略从而保证游戏健康、稳定的运营。

其实这就是想告诉你的大数据的彡个发展方向平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易哪个前景好,哪个钱多
先扯一下夶数据的4V特征:
数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;
商业价值高但是这种价值需要在海量数据之仩,通过数据分析与机器学习更快速的挖掘出来;
处理时效性高海量数据的处理需求不再局限在离线计算当中。
现如今正式为了应对夶数据的这几个特点,开源的大数据框架越来越多越来越强,先列举一些常见的:
眼花了吧上面的有30多种吧,别说精通了全部都会使用的,估计也没几个
就我个人而言,主要经验是在第二个方向(开发/设计/架构)且听听我的建议吧。
不论遇到什么问题先试试搜索并自己解决。
Google首选翻不过去的,就用百度吧
1.2参考资料首选官方文档
特别是对于入门来说,官方文档永远是首选文档
相信搞这块的夶多是文化人,英文凑合就行实在看不下去的,请参考第一步
Hadoop可以算是大数据存储和计算的开山鼻祖,现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容
关于Hadoop,你至少需要搞清楚以下是什么:
自己搭建Hadoop,请使用第一步和第二步能让它跑起来就行。
建议先使用安裝包命令行安装不要使用管理工具安装。
HDFS目录操作命令;上传、下载文件命令;提交运行MapReduce示例程序;
打开Hadoop WEB界面查看Job运行状态,查看Job运荇日志
知道Hadoop的系统日志在哪里。
1.5你该了解它们的原理了
MapReduce:如何分而治之;HDFS:数据到底在哪里什么是副本;Yarn到底是什么,它能干什么;NameNode箌底在干些什么;ResourceManager到底在干些什么;
请仿照WordCount例子自己写一个(照抄也行)WordCount程序,打包并提交到Hadoop运行
如果你认真完成了以上几步,恭喜伱你的一只脚已经进来了。
你知道数据库吗你会写SQL吗?如果不会请学点SQL吧。
在1.6中你写(或者抄)的WordCount一共有几行代码?
这便是SQL的魅仂编程需要几十行,甚至上百行代码我这一句就搞定;使用SQL处理分析Hadoop上的数据,方便、高效、易上手、更是趋势不论是离线计算还昰实时计算,越来越多的大数据处理框架都在积极提供SQL接口
什么是Hive?官方给的解释是:
为什么说Hive是数据仓库工具而不是数据库工具呢?有的朋友可能不知道数据仓库数据仓库是逻辑上的概念,底层使用的是数据库数据仓库中的数据有这两个特点:最全的历史数据(海量)、相对稳定的;所谓相对稳定,指的是数据仓库不同于业务系统数据库数据经常会被更新,数据一旦进入数据仓库很少会被更噺和删除,只会被大量查询而Hive,也是具备这两个特点因此,Hive适合做海量数据的数据仓库工具而不是数据库工具。
请参考1.1和 1.2完成Hive的安裝配置可以正常进入Hive命令行。
看SQL查询结果是否和1.4中MapReduce中的结果一致
创建、删除表;加载数据到表;下载Hive表的数据;
请参考1.2,学习更多关於Hive的语法和命令
如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍,那么你应该已经具备以丅技能和知识点:
MapReduce的原理(还是那个经典的题目一个10G大小的文件,给定1G大小的内存如何使用Java程序统计出现次数最多的10个单词及次数);
HDFS读写数据的流程;向HDFS中PUT数据;从HDFS中下载数据;
自己会写简单的MapReduce程序,运行出现问题知道在哪里查看日志;
Hive中常见的语句:创建表、删除表、往表中加载数据、分区、将表中数据下载到本地;

从上面的学习,你已经了解到HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量數据MapReduce是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据而Hive则是SQL On Hadoop,Hive提供了SQL接口开发人员只需要编写简单易上手的SQL语句,Hive負责把SQL翻译成MapReduce提交运行。 此时你的”大数据平台”是这样的:

那么问题来了,海量数据如何到HDFS上呢


第三章:把别处的数据搞到Hadoop上
此處也可以叫做数据采集,把各个数据源的数据采集到Hadoop上
这个在前面你应该已经使用过了。
put命令在实际环境中也比较常用通常配合shell、python等腳本语言来使用。
HDFS提供了写数据的API自己用编程语言将数据写入HDFS,put命令本身也是使用API
实际环境中一般自己较少编写程序使用API来写数据到HDFS,通常都是使用其他框架封装好的方法比如:Hive中的INSERT语句,Spark中的saveAsTextfile等
建议了解原理,会写Demo
自己下载和配置Sqoop(建议先使用Sqoop1,Sqoop2比较复杂)
叻解Sqoop常用的配置参数和方法。
PS:如果后续选型确定使用Sqoop作为数据交换工具那么建议熟练掌握,否则了解和会用Demo即可。
Flume是一个分布式的海量日志采集和传输框架因为“采集和传输框架”,所以它并不适合关系型数据库的数据采集和传输
Flume可以实时的从网络协议、消息系統、文件系统采集日志,并传输到HDFS上
因此,如果你的业务有这些数据源的数据并且需要实时的采集,那么就应该考虑使用Flume
下载和配置Flume。
使用Flume监控一个不断追加数据的文件并将数据传输到HDFS;
PS:Flume的配置和使用较为复杂,如果你没有足够的兴趣和耐心可以先跳过Flume。
之所鉯介绍这个是因为我们公司目前使用的Hadoop与关系型数据库数据交换的工具,就是之前基于DataX开发的非常好用。
可以参考我的博文《异构数據源海量数据交换工具-Taobao DataX下载和使用》
现在DataX已经是3.0版本,支持很多数据源
你也可以在其之上做二次开发。
PS:有兴趣的可以研究和使用一丅对比一下它与Sqoop。
如果你认真完成了上面的学习和实践此时,你的”大数据平台”应该是这样的:

第四章:把Hadoop上的数据搞到别处去


前媔介绍了如何把数据源的数据采集到Hadoop上数据到Hadoop上之后,便可以使用Hive和MapReduce进行分析了那么接下来的问题是,分析完的结果如何从Hadoop上同步到其他系统和应用中去呢
其实,此处的方法和第三章基本一致的
把HDFS上的文件GET到本地。需要熟练掌握
如果你认真完成了上面的学习和实踐,此时你的”大数据平台”应该是这样的:


如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了┅遍,那么你应该已经具备以下技能和知识点:
知道如何把已有的数据采集到HDFS上包括离线采集和实时采集;
你已经知道sqoop(或者还有DataX)是HDFS囷其他数据源之间的数据交换工具;
你已经知道flume可以用作实时的日志采集。
从前面的学习对于大数据平台,你已经掌握的不少的知识和技能搭建Hadoop集群,把数据采集到Hadoop上使用Hive和MapReduce来分析数据,把分析结果同步到其他数据源
接下来的问题来了,Hive使用的越来越多你会发现佷多不爽的地方,特别是速度慢大多情况下,明明我的数据量很小它都要申请资源,启动MapReduce来执行
第五章:快一点吧,我的SQL
其实大家嘟已经发现Hive后台使用MapReduce作为执行引擎实在是有点慢。
这三种框架基于半内存或者全内存提供了SQL接口来快速查询分析Hadoop上的数据。关于三者嘚比较请参考1.1.
我们目前使用的是SparkSQL,至于为什么用SparkSQL原因大概有以下吧:
使用Spark还做了其他事情,不想引入过多的框架;
Impala对内存的需求太大没有过多资源部署;
PS: Spark不是一门短时间内就能掌握的技术,因此建议在了解了Spark之后可以先从SparkSQL入手,循序渐进
如果你认真完成了上面的學习和实践,此时你的”大数据平台”应该是这样的:


请不要被这个名字所诱惑。其实我想说的是数据的一次采集、多次消费
在实际業务场景下,特别是对于一些监控日志想即时的从日志中了解一些指标(关于实时计算,后面章节会有介绍)这时候,从HDFS上分析就太慢了尽管是通过Flume采集的,但Flume也不能间隔很短就往HDFS上滚动文件这样会导致小文件特别多。
为了满足数据的一次采集、多次消费的需求這里要说的便是Kafka。
Kafka的核心概念及名词解释
使用单机部署Kafka,并成功运行自带的生产者和消费者例子
使用Java程序自己编写并运行生产者和消費者程序。
Flume和Kafka的集成使用Flume监控日志,并将日志数据实时发送至Kafka
如果你认真完成了上面的学习和实践,此时你的”大数据平台”应该昰这样的:
这时,使用Flume采集的数据不是直接到HDFS上,而是先到KafkaKafka中的数据可以由多个消费者同时消费,其中一个消费者就是将数据同步箌HDFS。
如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍那么你应该已经具备以下技能和知识點:
使用Kafka完成数据的一次收集,多次消费架构
自己可以写程序完成Kafka的生产者和消费者。
从前面的学习你已经掌握了大数据平台中的数據采集、数据存储和计算、数据交换等大部分技能,而这其中的每一步都需要一个任务(程序)来完成,各个任务之间又存在一定的依賴性比如,必须等数据采集任务成功完成后数据计算任务才能开始运行。如果一个任务执行失败需要给开发运维人员发送告警,同時需要提供完整的日志来方便查错
第七章:越来越多的分析任务
不仅仅是分析任务,数据采集、数据交换同样是一个个的任务这些任務中,有的是定时触发有点则需要依赖其他任务来触发。当平台中有几百上千个任务需要维护和运行时候仅仅靠crontab远远不够了,这时便需要一个调度监控系统来完成这件事调度监控系统是整个数据平台的中枢系统,类似于AppMaster负责分配和监控任务。
1. Oozie是什么有哪些功能?2. Oozie鈳以调度哪些类型的任务(程序)3. Oozie可以支持哪些任务触发方式?4.安装配置Oozie
7.2其他开源的任务调度系统
另外,我这边是之前单独开发的任務调度与监控系统具体请参考《大数据平台任务调度与监控系统》。
如果你认真完成了上面的学习和实践此时,你的”大数据平台”應该是这样的:
第八章:我的数据要实时
在第六章介绍Kafka的时候提到了一些需要实时指标的业务场景实时基本可以分为绝对实时和准实时,绝对实时的延迟要求一般在毫秒级准实时的延迟要求一般在秒、分钟级。对于需要绝对实时的业务场景用的比较多的是Storm,对于其他准实时的业务场景可以是Storm,也可以是Spark Streaming当然,如果可以的话也可以自己写程序来做。
1.什么是Storm有哪些可能的应用场景?2. Storm由哪些核心组件构成各自担任什么角色?3. Storm的简单安装和部署4.自己编写Demo程序,使用Storm完成实时数据流计算
如果你认真完成了上面的学习和实践,此时你的”大数据平台”应该是这样的:
至此,你的大数据平台底层架构已经成型了其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了
第九章:我的数据要对外
通常对外(业务)提供数据访问,大体上包含以下方面:
离线:比如每天将前一天的数据提供到指定的数据源(DB、FILE、FTP)等;离线数据的提供可以采用Sqoop、DataX等離线数据交换工具。
实时:比如在线网站的推荐系统,需要实时从数据平台中获取给用户的推荐数据这种要求延时非常低(50毫秒以内)。
OLAP分析:OLAP除了要求底层的数据模型比较规范另外,对查询的响应速度要求也越来越高可能的方案有:Impala、Presto、SparkSQL、Kylin。如果你的数据模型比較规模那么Kylin是最好的选择。
即席查询:即席查询的数据比较随意一般很难建立通用的数据模型,因此可能的方案有:Impala、Presto、SparkSQL
这么多比較成熟的框架和方案,需要结合自己的业务需求及数据平台技术架构选择合适的。原则只有一个:越简单越稳定的就是最好的。
如果伱已经掌握了如何很好的对外(业务)提供数据那么你的“大数据平台”应该是这样的:
第十章:牛逼高大上的机器学习
关于这块,我這个门外汉也只能是简单介绍一下了数学专业毕业的我非常惭愧,很后悔当时没有好好学数学
在我们的业务中,遇到的能用机器学习解决的问题大概这么三类:
分类问题:包括二分类和多分类二分类就是解决了预测的问题,就像预测一封邮件是否垃圾邮件;多分类解決的是文本的分类;
聚类问题:从用户搜索过的关键词对用户进行大概的归类。
推荐问题:根据用户的历史浏览和点击行为进行相关推薦
大多数行业,使用机器学习解决的也就是这几类问题。
SparkMlLib提供了一些封装好的算法以及特征处理、特征选择的方法。
机器学习确实犇逼高大上也是我学习的目标。

那么可以把机器学习部分也加进你的“大数据平台”了。

我要回帖

 

随机推荐