大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

導(dǎo)讀：

創(chuàng)新互聯(lián)建站專注于岱山網(wǎng)站建設(shè)服務(wù)及定制，我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。熱誠為您提供岱山營銷型網(wǎng)站建設(shè)，岱山網(wǎng)站制作、岱山網(wǎng)頁設(shè)計(jì)、岱山網(wǎng)站官網(wǎng)定制、微信小程序服務(wù)，打造岱山網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供岱山網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。

第一章：初識(shí)Hadoop
第二章：更高效的WordCount
第三章：把別處的數(shù)據(jù)搞到Hadoop上
第四章：把Hadoop上的數(shù)據(jù)搞到別處去
第五章：快一點(diǎn)吧，我的SQL
第六章：一夫多妻制
第七章：越來越多的分析任務(wù)
第八章：我的數(shù)據(jù)要實(shí)時(shí)
第九章：我的數(shù)據(jù)要對外
第十章：牛逼高大上的機(jī)器學(xué)習(xí)

經(jīng)常有初學(xué)者在博客和QQ問我，自己想往大數(shù)據(jù)方向發(fā)展，該學(xué)哪些技術(shù)，學(xué)習(xí)路線是什么樣的，覺得大數(shù)據(jù)很火，就業(yè)很好，薪資很高。如果自己很迷茫，為了這些原因想往大數(shù)據(jù)方向發(fā)展，也可以，那么我就想問一下，你的專業(yè)是什么，對于計(jì)算機(jī)/軟件，你的興趣是什么？是計(jì)算機(jī)專業(yè)，對操作系統(tǒng)、硬件、網(wǎng)絡(luò)、服務(wù)器感興趣？是軟件專業(yè)，對軟件開發(fā)、編程、寫代碼感興趣？還是數(shù)學(xué)、統(tǒng)計(jì)學(xué)專業(yè)，對數(shù)據(jù)和數(shù)字特別感興趣。。

其實(shí)這就是想告訴你的大數(shù)據(jù)的三個(gè)發(fā)展方向，平臺(tái)搭建/優(yōu)化/運(yùn)維/監(jiān)控、大數(shù)據(jù)開發(fā)/設(shè)計(jì)/架構(gòu)、數(shù)據(jù)分析/挖掘。請不要問我哪個(gè)容易，哪個(gè)前景好，哪個(gè)錢多。

先扯一下大數(shù)據(jù)的4V特征：

數(shù)據(jù)量大，TB->PB
數(shù)據(jù)類型繁多，結(jié)構(gòu)化、非結(jié)構(gòu)化文本、日志、視頻、圖片、地理位置等；
商業(yè)價(jià)值高，但是這種價(jià)值需要在海量數(shù)據(jù)之上，通過數(shù)據(jù)分析與機(jī)器學(xué)習(xí)更快速的挖掘出來；
處理時(shí)效性高，海量數(shù)據(jù)的處理需求不再局限在離線計(jì)算當(dāng)中。

現(xiàn)如今，正式為了應(yīng)對大數(shù)據(jù)的這幾個(gè)特點(diǎn)，開源的大數(shù)據(jù)框架越來越多，越來越強(qiáng)，先列舉一些常見的：

文件存儲(chǔ)：Hadoop HDFS、Tachyon、KFS
離線計(jì)算：Hadoop MapReduce、Spark
流式、實(shí)時(shí)計(jì)算：Storm、Spark Streaming、S4、Heron
K-V、NoSql數(shù)據(jù)庫：HBase、redis、MongoDB
資源管理：YARN、Mesos
日志收集：Flume、Scribe、Logstash、Kibana
消息系統(tǒng)：Kafka、StormMQ、ZeroMQ、RabbitMQ
查詢分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式協(xié)調(diào)服務(wù)：Zookeeper
集群管理與監(jiān)控：Ambari、Ganglia、Nagios、Cloudera Manager
數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)：Mahout、Spark MLLib
數(shù)據(jù)同步：Sqoop
任務(wù)調(diào)度：Oozie
……

眼花了吧，上面的有30多種吧，別說精通了，全部都會(huì)使用的，估計(jì)也沒幾個(gè)。

就我個(gè)人而言，主要經(jīng)驗(yàn)是在第二個(gè)方向（開發(fā)/設(shè)計(jì)/架構(gòu)），且聽聽我的建議吧。

第一章：初識(shí)Hadoop

1.1 學(xué)會(huì)百度與Google

不論遇到什么問題，先試試搜索并自己解決。

Google首選，翻不過去的，就用百度吧。

1.2 參考資料首選官方文檔

特別是對于入門來說，官方文檔永遠(yuǎn)是首選文檔。

相信搞這塊的大多是文化人，英文湊合就行，實(shí)在看不下去的，請參考第一步。

1.3 先讓Hadoop跑起來

Hadoop可以算是大數(shù)據(jù)存儲(chǔ)和計(jì)算的開山鼻祖，現(xiàn)在大多開源的大數(shù)據(jù)框架都依賴Hadoop或者與它能很好的兼容。

關(guān)于Hadoop,你至少需要搞清楚以下是什么：

Hadoop 1.0、Hadoop 2.0
MapReduce、HDFS
NameNode、DataNode
JobTracker、TaskTracker
Yarn、ResourceManager、NodeManager

自己搭建Hadoop，請使用第一步和第二步，能讓它跑起來就行。

建議先使用安裝包命令行安裝，不要使用管理工具安裝。

另外：Hadoop1.0知道它就行了，現(xiàn)在都用Hadoop 2.0.

1.4 試試使用Hadoop

HDFS目錄操作命令；
上傳、下載文件命令；
提交運(yùn)行MapReduce示例程序；

打開Hadoop WEB界面，查看Job運(yùn)行狀態(tài)，查看Job運(yùn)行日志。

知道Hadoop的系統(tǒng)日志在哪里。

1.5 你該了解它們的原理了

MapReduce：如何分而治之；
HDFS：數(shù)據(jù)到底在哪里，什么是副本；
Yarn到底是什么，它能干什么；
NameNode到底在干些什么；
ResourceManager到底在干些什么；

1.6 自己寫一個(gè)MapReduce程序

請仿照WordCount例子，自己寫一個(gè)（照抄也行）WordCount程序，
打包并提交到Hadoop運(yùn)行。

你不會(huì)Java？Shell、Python都可以，有個(gè)東西叫Hadoop Streaming。

如果你認(rèn)真完成了以上幾步，恭喜你，你的一只腳已經(jīng)進(jìn)來了。

第二章：更高效的WordCount

2.1 學(xué)點(diǎn)SQL吧

你知道數(shù)據(jù)庫嗎？你會(huì)寫SQL嗎？
如果不會(huì)，請學(xué)點(diǎn)SQL吧。

2.2 SQL版WordCount

在1.6中，你寫（或者抄）的WordCount一共有幾行代碼？

給你看看我的:

SELECT word,COUNT(1) FROM wordcount GROUP BY word;

這便是SQL的魅力，編程需要幾十行，甚至上百行代碼，我這一句就搞定；使用SQL處理分析Hadoop上的數(shù)據(jù)，方便、高效、易上手、更是趨勢。不論是離線計(jì)算還是實(shí)時(shí)計(jì)算，越來越多的大數(shù)據(jù)處理框架都在積極提供SQL接口。

2.3 SQL On Hadoop之Hive

什么是Hive？官方給的解釋是：

The Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried using SQL syntax.

為什么說Hive是數(shù)據(jù)倉庫工具，而不是數(shù)據(jù)庫工具呢？有的朋友可能不知道數(shù)據(jù)倉庫，數(shù)據(jù)倉庫是邏輯上的概念，底層使用的是數(shù)據(jù)庫，數(shù)據(jù)倉庫中的數(shù)據(jù)有這兩個(gè)特點(diǎn)：最全的歷史數(shù)據(jù)（海量）、相對穩(wěn)定的；所謂相對穩(wěn)定，指的是數(shù)據(jù)倉庫不同于業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫，數(shù)據(jù)經(jīng)常會(huì)被更新，數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫，很少會(huì)被更新和刪除，只會(huì)被大量查詢。而Hive，也是具備這兩個(gè)特點(diǎn)，因此，Hive適合做海量數(shù)據(jù)的數(shù)據(jù)倉庫工具，而不是數(shù)據(jù)庫工具。

2.4 安裝配置Hive

請參考1.1 和 1.2 完成Hive的安裝配置?？梢哉＿M(jìn)入Hive命令行。

2.5 試試使用Hive

請參考1.1 和 1.2 ，在Hive中創(chuàng)建wordcount表，并運(yùn)行2.2中的SQL語句。
在Hadoop WEB界面中找到剛才運(yùn)行的SQL任務(wù)。

看SQL查詢結(jié)果是否和1.4中MapReduce中的結(jié)果一致。

2.6 Hive是怎么工作的

明明寫的是SQL，為什么Hadoop WEB界面中看到的是MapReduce任務(wù)？

2.7 學(xué)會(huì)Hive的基本命令

創(chuàng)建、刪除表；
加載數(shù)據(jù)到表；
下載Hive表的數(shù)據(jù)；

請參考1.2，學(xué)習(xí)更多關(guān)于Hive的語法和命令。

如果你已經(jīng)按照《寫給大數(shù)據(jù)開發(fā)初學(xué)者的話》中第一章和第二章的流程認(rèn)真完整的走了一遍，那么你應(yīng)該已經(jīng)具備以下技能和知識(shí)點(diǎn)：

0和Hadoop2.0的區(qū)別；
MapReduce的原理（還是那個(gè)經(jīng)典的題目，一個(gè)10G大小的文件，給定1G大小的內(nèi)存，如何使用Java程序統(tǒng)計(jì)出現(xiàn)次數(shù)最多的10個(gè)單詞及次數(shù)）；
HDFS讀寫數(shù)據(jù)的流程；向HDFS中PUT數(shù)據(jù)；從HDFS中下載數(shù)據(jù)；
自己會(huì)寫簡單的MapReduce程序，運(yùn)行出現(xiàn)問題，知道在哪里查看日志；
會(huì)寫簡單的SELECT、WHERE、GROUP BY等SQL語句；
Hive SQL轉(zhuǎn)換成MapReduce的大致流程；
Hive中常見的語句：創(chuàng)建表、刪除表、往表中加載數(shù)據(jù)、分區(qū)、將表中數(shù)據(jù)下載到本地；

從上面的學(xué)習(xí)，你已經(jīng)了解到，HDFS是Hadoop提供的分布式存儲(chǔ)框架，它可以用來存儲(chǔ)海量數(shù)據(jù)，MapReduce是Hadoop提供的分布式計(jì)算框架，它可以用來統(tǒng)計(jì)和分析HDFS上的海量數(shù)據(jù)，而Hive則是SQL On Hadoop，Hive提供了SQL接口，開發(fā)人員只需要編寫簡單易上手的SQL語句，Hive負(fù)責(zé)把SQL翻譯成MapReduce，提交運(yùn)行。

此時(shí)，你的”大數(shù)據(jù)平臺(tái)”是這樣的：

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

那么問題來了，海量數(shù)據(jù)如何到HDFS上呢？

第三章：把別處的數(shù)據(jù)搞到Hadoop上

此處也可以叫做數(shù)據(jù)采集，把各個(gè)數(shù)據(jù)源的數(shù)據(jù)采集到Hadoop上。

3.1 HDFS PUT命令

這個(gè)在前面你應(yīng)該已經(jīng)使用過了。

put命令在實(shí)際環(huán)境中也比較常用，通常配合shell、python等腳本語言來使用。

建議熟練掌握。

3.2 HDFS API

HDFS提供了寫數(shù)據(jù)的API，自己用編程語言將數(shù)據(jù)寫入HDFS，put命令本身也是使用API。

實(shí)際環(huán)境中一般自己較少編寫程序使用API來寫數(shù)據(jù)到HDFS，通常都是使用其他框架封裝好的方法。比如：Hive中的INSERT語句，Spark中的saveAsTextfile等。

建議了解原理，會(huì)寫Demo。

3.3 Sqoop

Sqoop是一個(gè)主要用于Hadoop/Hive與傳統(tǒng)關(guān)系型數(shù)據(jù)庫Oracle/MySQL/SQLServer等之間進(jìn)行數(shù)據(jù)交換的開源框架。

就像Hive把SQL翻譯成MapReduce一樣，Sqoop把你指定的參數(shù)翻譯成MapReduce，提交到Hadoop運(yùn)行，完成Hadoop與其他數(shù)據(jù)庫之間的數(shù)據(jù)交換。

自己下載和配置Sqoop（建議先使用Sqoop1，Sqoop2比較復(fù)雜）。

了解Sqoop常用的配置參數(shù)和方法。

使用Sqoop完成從MySQL同步數(shù)據(jù)到HDFS；
使用Sqoop完成從MySQL同步數(shù)據(jù)到Hive表；

PS：如果后續(xù)選型確定使用Sqoop作為數(shù)據(jù)交換工具，那么建議熟練掌握，否則，了解和會(huì)用Demo即可。

3.4 Flume

Flume是一個(gè)分布式的海量日志采集和傳輸框架，因?yàn)椤安杉蛡鬏斂蚣堋?，所以它并不適合關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)采集和傳輸。

Flume可以實(shí)時(shí)的從網(wǎng)絡(luò)協(xié)議、消息系統(tǒng)、文件系統(tǒng)采集日志，并傳輸?shù)紿DFS上。

因此，如果你的業(yè)務(wù)有這些數(shù)據(jù)源的數(shù)據(jù)，并且需要實(shí)時(shí)的采集，那么就應(yīng)該考慮使用Flume。

下載和配置Flume。

使用Flume監(jiān)控一個(gè)不斷追加數(shù)據(jù)的文件，并將數(shù)據(jù)傳輸?shù)紿DFS；

PS：Flume的配置和使用較為復(fù)雜，如果你沒有足夠的興趣和耐心，可以先跳過Flume。

3.5 阿里開源的DataX

之所以介紹這個(gè)，是因?yàn)槲覀冞@邊一個(gè)老師目前就職的公司使用的Hadoop與關(guān)系型數(shù)據(jù)庫數(shù)據(jù)交換的工具，就是之前基于DataX開發(fā)的，非常好用。

現(xiàn)在DataX已經(jīng)是3.0版本，支持很多數(shù)據(jù)源。

你也可以在其之上做二次開發(fā)。

PS：有興趣的可以研究和使用一下，對比一下它與Sqoop。

如果你認(rèn)真完成了上面的學(xué)習(xí)和實(shí)踐，此時(shí)，你的”大數(shù)據(jù)平臺(tái)”應(yīng)該是這樣的：

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

第四章：把Hadoop上的數(shù)據(jù)搞到別處去

前面介紹了如何把數(shù)據(jù)源的數(shù)據(jù)采集到Hadoop上，數(shù)據(jù)到Hadoop上之后，便可以使用Hive和MapReduce進(jìn)行分析了。那么接下來的問題是，分析完的結(jié)果如何從Hadoop上同步到其他系統(tǒng)和應(yīng)用中去呢？

其實(shí)，此處的方法和第三章基本一致的。

4.1 HDFS GET命令

把HDFS上的文件GET到本地。需要熟練掌握。

4.2 HDFS API

同3.2.

4.3 Sqoop

同3.3.

使用Sqoop完成將HDFS上的文件同步到MySQL；
使用Sqoop完成將Hive表中的數(shù)據(jù)同步到MySQL；

4.4 DataX

同3.5.

如果你認(rèn)真完成了上面的學(xué)習(xí)和實(shí)踐，此時(shí)，你的”大數(shù)據(jù)平臺(tái)”應(yīng)該是這樣的：

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

如果你已經(jīng)按照這個(gè)路線走了一遍，那么你接下來就應(yīng)該具備以下技能和知識(shí)點(diǎn)：

知道如何把已有的數(shù)據(jù)采集到HDFS上，包括離線采集和實(shí)時(shí)采集；

你已經(jīng)知道sqoop（或者還有DataX）是HDFS和其他數(shù)據(jù)源之間的數(shù)據(jù)交換工具；

你已經(jīng)知道flume可以用作實(shí)時(shí)的日志采集。

從前面的學(xué)習(xí)，對于大數(shù)據(jù)平臺(tái)，你已經(jīng)掌握的不少的知識(shí)和技能，搭建Hadoop集群，把數(shù)據(jù)采集到Hadoop上，使用Hive和MapReduce來分析數(shù)據(jù)，把分析結(jié)果同步到其他數(shù)據(jù)源。

接下來的問題來了，Hive使用的越來越多，你會(huì)發(fā)現(xiàn)很多不爽的地方，特別是速度慢，大多情況下，明明我的數(shù)據(jù)量很小，它都要申請資源，啟動(dòng)MapReduce來執(zhí)行。

第五章：快一點(diǎn)吧，我的SQL

其實(shí)大家都已經(jīng)發(fā)現(xiàn)Hive后臺(tái)使用MapReduce作為執(zhí)行引擎，實(shí)在是有點(diǎn)慢。

因此SQL On Hadoop的框架越來越多，按我的了解，最常用的按照流行度依次為SparkSQL、Impala和Presto.

這三種框架基于半內(nèi)存或者全內(nèi)存，提供了SQL接口來快速查詢分析Hadoop上的數(shù)據(jù)。

我們目前使用的是SparkSQL，至于為什么用SparkSQL，原因大概有以下吧：

使用Spark還做了其他事情，不想引入過多的框架；

Impala對內(nèi)存的需求太大，沒有過多資源部署；

5.1 關(guān)于Spark和SparkSQL

什么是Spark，什么是SparkSQL。
Spark有的核心概念及名詞解釋。
SparkSQL和Spark是什么關(guān)系，SparkSQL和Hive是什么關(guān)系。
SparkSQL為什么比Hive跑的快。

5.2 如何部署和運(yùn)行SparkSQL

Spark有哪些部署模式？
如何在Yarn上運(yùn)行SparkSQL？
使用SparkSQL查詢Hive中的表。

PS: Spark不是一門短時(shí)間內(nèi)就能掌握的技術(shù)，因此建議在了解了Spark之后，可以先從SparkSQL入手，循序漸進(jìn)。

關(guān)于Spark和SparkSQL，可參考 http://lxw1234.com/archives/category/spark

如果你認(rèn)真完成了上面的學(xué)習(xí)和實(shí)踐，此時(shí)，你的”大數(shù)據(jù)平臺(tái)”應(yīng)該是這樣的：

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

第六章：一夫多妻制

請不要被這個(gè)名字所誘惑。其實(shí)我想說的是數(shù)據(jù)的一次采集、多次消費(fèi)。

在實(shí)際業(yè)務(wù)場景下，特別是對于一些監(jiān)控日志，想即時(shí)的從日志中了解一些指標(biāo)（關(guān)于實(shí)時(shí)計(jì)算，后面章節(jié)會(huì)有介紹），這時(shí)候，從HDFS上分析就太慢了，盡管是通過Flume采集的，但Flume也不能間隔很短就往HDFS上滾動(dòng)文件，這樣會(huì)導(dǎo)致小文件特別多。

為了滿足數(shù)據(jù)的一次采集、多次消費(fèi)的需求，這里要說的便是Kafka。

6.1 關(guān)于Kafka

什么是Kafka？

Kafka的核心概念及名詞解釋。

6.2 如何部署和使用Kafka

使用單機(jī)部署Kafka，并成功運(yùn)行自帶的生產(chǎn)者和消費(fèi)者例子。

使用Java程序自己編寫并運(yùn)行生產(chǎn)者和消費(fèi)者程序。

Flume和Kafka的集成，使用Flume監(jiān)控日志，并將日志數(shù)據(jù)實(shí)時(shí)發(fā)送至Kafka。

如果你認(rèn)真完成了上面的學(xué)習(xí)和實(shí)踐，此時(shí)，你的”大數(shù)據(jù)平臺(tái)”應(yīng)該是這樣的：

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

這時(shí)，使用Flume采集的數(shù)據(jù)，不是直接到HDFS上，而是先到Kafka，Kafka中的數(shù)據(jù)可以由多個(gè)消費(fèi)者同時(shí)消費(fèi)，其中一個(gè)消費(fèi)者，就是將數(shù)據(jù)同步到HDFS。

接下來你應(yīng)該已經(jīng)具備以下技能和知識(shí)點(diǎn)：

為什么Spark比MapReduce快。
使用SparkSQL代替Hive，更快的運(yùn)行SQL。
使用Kafka完成數(shù)據(jù)的一次收集，多次消費(fèi)架構(gòu)。
自己可以寫程序完成Kafka的生產(chǎn)者和消費(fèi)者。

從前面的學(xué)習(xí)，你已經(jīng)掌握了大數(shù)據(jù)平臺(tái)中的數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和計(jì)算、數(shù)據(jù)交換等大部分技能，而這其中的每一步，都需要一個(gè)任務(wù)（程序）來完成，各個(gè)任務(wù)之間又存在一定的依賴性，比如，必須等數(shù)據(jù)采集任務(wù)成功完成后，數(shù)據(jù)計(jì)算任務(wù)才能開始運(yùn)行。如果一個(gè)任務(wù)執(zhí)行失敗，需要給開發(fā)運(yùn)維人員發(fā)送告警，同時(shí)需要提供完整的日志來方便查錯(cuò)。

第七章：越來越多的分析任務(wù)

不僅僅是分析任務(wù)，數(shù)據(jù)采集、數(shù)據(jù)交換同樣是一個(gè)個(gè)的任務(wù)。這些任務(wù)中，有的是定時(shí)觸發(fā)，有點(diǎn)則需要依賴其他任務(wù)來觸發(fā)。當(dāng)平臺(tái)中有幾百上千個(gè)任務(wù)需要維護(hù)和運(yùn)行時(shí)候，僅僅靠crontab遠(yuǎn)遠(yuǎn)不夠了，這時(shí)便需要一個(gè)調(diào)度監(jiān)控系統(tǒng)來完成這件事。調(diào)度監(jiān)控系統(tǒng)是整個(gè)數(shù)據(jù)平臺(tái)的中樞系統(tǒng)，類似于AppMaster，負(fù)責(zé)分配和監(jiān)控任務(wù)。

7.1 Apache Oozie

1. Oozie是什么？有哪些功能？
2. Oozie可以調(diào)度哪些類型的任務(wù)（程序）？
3. Oozie可以支持哪些任務(wù)觸發(fā)方式？
4. 安裝配置Oozie。

7.2 其他開源的任務(wù)調(diào)度系統(tǒng)

Azkaban：

https://azkaban.github.io/

light-task-scheduler：

https://github.com/ltsopensource/light-task-scheduler

Zeus：

https://github.com/alibaba/zeus

……

如果你認(rèn)真完成了上面的學(xué)習(xí)和實(shí)踐，此時(shí)，你的”大數(shù)據(jù)平臺(tái)”應(yīng)該是這樣的：

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

第八章：我的數(shù)據(jù)要實(shí)時(shí)

在第六章介紹Kafka的時(shí)候提到了一些需要實(shí)時(shí)指標(biāo)的業(yè)務(wù)場景，實(shí)時(shí)基本可以分為絕對實(shí)時(shí)和準(zhǔn)實(shí)時(shí)，絕對實(shí)時(shí)的延遲要求一般在毫秒級，準(zhǔn)實(shí)時(shí)的延遲要求一般在秒、分鐘級。對于需要絕對實(shí)時(shí)的業(yè)務(wù)場景，用的比較多的是Storm，對于其他準(zhǔn)實(shí)時(shí)的業(yè)務(wù)場景，可以是Storm，也可以是Spark Streaming。當(dāng)然，如果可以的話，也可以自己寫程序來做。

8.1 Storm

1. 什么是Storm？有哪些可能的應(yīng)用場景？
2. Storm由哪些核心組件構(gòu)成，各自擔(dān)任什么角色？
3. Storm的簡單安裝和部署。
4. 自己編寫Demo程序，使用Storm完成實(shí)時(shí)數(shù)據(jù)流計(jì)算。

8.2 Spark Streaming

1. 什么是Spark Streaming，它和Spark是什么關(guān)系？
2. Spark Streaming和Storm比較，各有什么優(yōu)缺點(diǎn)？
3. 使用Kafka + Spark Streaming，完成實(shí)時(shí)計(jì)算的Demo程序。

如果你認(rèn)真完成了上面的學(xué)習(xí)和實(shí)踐，此時(shí)，你的”大數(shù)據(jù)平臺(tái)”應(yīng)該是這樣的：

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

至此，你的大數(shù)據(jù)平臺(tái)底層架構(gòu)已經(jīng)成型了，其中包括了數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)與計(jì)算（離線和實(shí)時(shí)）、數(shù)據(jù)同步、任務(wù)調(diào)度與監(jiān)控這幾大模塊。接下來是時(shí)候考慮如何更好的對外提供數(shù)據(jù)了。

第九章：我的數(shù)據(jù)要對外

通常對外（業(yè)務(wù)）提供數(shù)據(jù)訪問，大體上包含以下方面：

離線：比如，每天將前一天的數(shù)據(jù)提供到指定的數(shù)據(jù)源（DB、FILE、FTP）等；離線數(shù)據(jù)的提供可以采用Sqoop、DataX等離線數(shù)據(jù)交換工具。

實(shí)時(shí)：比如，在線網(wǎng)站的推薦系統(tǒng)，需要實(shí)時(shí)從數(shù)據(jù)平臺(tái)中獲取給用戶的推薦數(shù)據(jù)，這種要求延時(shí)非常低（50毫秒以內(nèi)）。

根據(jù)延時(shí)要求和實(shí)時(shí)數(shù)據(jù)的查詢需要，可能的方案有：HBase、Redis、MongoDB、ElasticSearch等。

OLAP分析：OLAP除了要求底層的數(shù)據(jù)模型比較規(guī)范，另外，對查詢的響應(yīng)速度要求也越來越高，可能的方案有：Impala、Presto、SparkSQL、Kylin。如果你的數(shù)據(jù)模型比較規(guī)模，那么Kylin是最好的選擇。

即席查詢：即席查詢的數(shù)據(jù)比較隨意，一般很難建立通用的數(shù)據(jù)模型，因此可能的方案有：Impala、Presto、SparkSQL。

這么多比較成熟的框架和方案，需要結(jié)合自己的業(yè)務(wù)需求及數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)，選擇合適的。原則只有一個(gè)：越簡單越穩(wěn)定的，就是最好的。

如果你已經(jīng)掌握了如何很好的對外（業(yè)務(wù)）提供數(shù)據(jù)，那么你的“大數(shù)據(jù)平臺(tái)”應(yīng)該是這樣的：

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

第十章：牛逼高大上的機(jī)器學(xué)習(xí)

關(guān)于這塊，我這個(gè)門外漢也只能是簡單介紹一下了。數(shù)學(xué)專業(yè)畢業(yè)的我非常慚愧，很后悔當(dāng)時(shí)沒有好好學(xué)數(shù)學(xué)。

在我們的業(yè)務(wù)中，遇到的能用機(jī)器學(xué)習(xí)解決的問題大概這么三類：

分類問題：包括二分類和多分類，二分類就是解決了預(yù)測的問題，就像預(yù)測一封郵件是否垃圾郵件；多分類解決的是文本的分類；
聚類問題：從用戶搜索過的關(guān)鍵詞，對用戶進(jìn)行大概的歸類。
推薦問題：根據(jù)用戶的歷史瀏覽和點(diǎn)擊行為進(jìn)行相關(guān)推薦。

大多數(shù)行業(yè)，使用機(jī)器學(xué)習(xí)解決的，也就是這幾類問題。

入門學(xué)習(xí)線路：

數(shù)學(xué)基礎(chǔ)；

機(jī)器學(xué)習(xí)實(shí)戰(zhàn)（Machine Learning in Action），懂Python最好；

SparkMlLib提供了一些封裝好的算法，以及特征處理、特征選擇的方法。

機(jī)器學(xué)習(xí)確實(shí)牛逼高大上，也是我學(xué)習(xí)的目標(biāo)。

那么，可以把機(jī)器學(xué)習(xí)部分也加進(jìn)你的“大數(shù)據(jù)平臺(tái)”了。

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

好了，給到了這么一個(gè)過程，希望能夠?qū)δ阌幸欢ǖ膸椭?，如果你在操作中出現(xiàn)了其他的問題不懂的，歡迎隨時(shí)聯(lián)系！

可以掃描屏幕下方的微信二維碼：

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

本文標(biāo)題：大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線
URL網(wǎng)址：http://www.rwnh.cn/article48/pgschp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供面包屑導(dǎo)航、外貿(mào)網(wǎng)站建設(shè)、網(wǎng)站策劃、營銷型網(wǎng)站建設(shè)、響應(yīng)式網(wǎng)站、網(wǎng)站內(nèi)鏈

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

大數(shù)據(jù)開發(fā)者必走的學(xué)習(xí)路線

第一章：初識(shí)Hadoop

1.1 學(xué)會(huì)百度與Google

1.2 參考資料首選官方文檔

1.3 先讓Hadoop跑起來

1.4 試試使用Hadoop

1.5 你該了解它們的原理了

1.6 自己寫一個(gè)MapReduce程序

第二章：更高效的WordCount

2.1 學(xué)點(diǎn)SQL吧

2.2 SQL版WordCount

2.3 SQL On Hadoop之Hive

2.4 安裝配置Hive

2.5 試試使用Hive

2.6 Hive是怎么工作的

2.7 學(xué)會(huì)Hive的基本命令

第三章：把別處的數(shù)據(jù)搞到Hadoop上

3.1 HDFS PUT命令

3.2 HDFS API

3.3 Sqoop

3.4 Flume

3.5 阿里開源的DataX

第四章：把Hadoop上的數(shù)據(jù)搞到別處去

4.1 HDFS GET命令

4.2 HDFS API

4.3 Sqoop

4.4 DataX

第五章：快一點(diǎn)吧，我的SQL

5.1 關(guān)于Spark和SparkSQL

5.2 如何部署和運(yùn)行SparkSQL

第六章：一夫多妻制

6.1 關(guān)于Kafka

6.2 如何部署和使用Kafka

第七章：越來越多的分析任務(wù)

7.1 Apache Oozie

7.2 其他開源的任務(wù)調(diào)度系統(tǒng)

第八章：我的數(shù)據(jù)要實(shí)時(shí)

8.1 Storm

8.2 Spark Streaming

第九章：我的數(shù)據(jù)要對外

第十章：牛逼高大上的機(jī)器學(xué)習(xí)

第五章：快一點(diǎn)吧，我的SQL