Hadoop的數(shù)據(jù)分析平臺怎么搭建

本篇內(nèi)容介紹了“Hadoop的數(shù)據(jù)分析平臺怎么搭建”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠?qū)W有所成！

網(wǎng)站建設哪家好，找創(chuàng)新互聯(lián)！專注于網(wǎng)頁設計、網(wǎng)站建設、微信開發(fā)、小程序設計、集團企業(yè)網(wǎng)站建設等服務項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了桂林免費建站歡迎大家使用！

企業(yè)發(fā)展到一定規(guī)模都會搭建單獨的BI平臺來做數(shù)據(jù)分析，即OLAP(聯(lián)機分析處理)，一般都是基于數(shù)據(jù)庫技術來構建，基本都是單機產(chǎn)品。除了業(yè)務數(shù)據(jù)的相關分析外，互聯(lián)網(wǎng)企業(yè)還會對用戶行為進行分析，進一步挖掘潛在價值，這時數(shù)據(jù)就會膨脹得很厲害，一天的數(shù)據(jù)量可能會成千萬或上億，對基于數(shù)據(jù)庫的傳統(tǒng)數(shù)據(jù)分析平臺的數(shù)據(jù)存儲和分析計算帶來了很大挑戰(zhàn)。

為了應對隨著數(shù)據(jù)量的增長、數(shù)據(jù)處理性能的可擴展性，許多企業(yè)紛紛轉(zhuǎn)向Hadoop平臺來搭建數(shù)據(jù)分析平臺。Hadoop平臺具有分布式存儲及并行計算的特性，因此可輕松擴展存儲結點和計算結點，解決數(shù)據(jù)增長帶來的性能瓶頸。

隨著越來越多的企業(yè)開始使用Hadoop平臺，也為Hadoop平臺引入了許多的技術，如Hive、Spark SQL、Kafka等，豐富的組件使得用Hadoop構建數(shù)據(jù)分析平臺代替?zhèn)鹘y(tǒng)數(shù)據(jù)分析平臺成為可能。

一、數(shù)據(jù)分析平臺架構原理

Hadoop的數(shù)據(jù)分析平臺怎么搭建

從概念上講，我們可以把數(shù)據(jù)分析平臺分為接入層(Landing)、整合層(Integration)、表現(xiàn)層(Persentation)、語義層(Semantic)、終端用戶應用(End-user applications)、元數(shù)據(jù)(Metadata)?；贖adoop和數(shù)據(jù)庫的分析平臺基本概念和邏輯架構是通用的，只是技術選型的不同：

接入層(Landing)：以和源系統(tǒng)相同的結構暫存原始數(shù)據(jù)，有時被稱為“貼源層”或ODS;
整合層(Integration)：持久存儲整合后的企業(yè)數(shù)據(jù)，針對企業(yè)信息實體和業(yè)務事件建模，代表組織的“***真相來源”，有時被稱為“數(shù)據(jù)倉庫”;
表現(xiàn)層(Presentation)：為滿足最終用戶的需求提供可消費的數(shù)據(jù)，針對商業(yè)智能和查詢性能建模，有時被稱為“數(shù)據(jù)集市”;
語義層(Semantic)：提供數(shù)據(jù)的呈現(xiàn)形式和訪問控制，例如某種報表工具;
終端用戶應用(End-user applications)：使用語義層的工具，將表現(xiàn)層數(shù)據(jù)最終呈現(xiàn)給用戶，包括儀表板、報表、圖表等多種形式;
元數(shù)據(jù)(Metadata)：記錄各層數(shù)據(jù)項的定義(Definitions)、血緣(Genealogy)、處理過程(Processing)。

來自不同數(shù)據(jù)源的“生”數(shù)據(jù)(接入層)，和經(jīng)過中間處理之后得到的整合層、表現(xiàn)層的數(shù)據(jù)模型，都會存儲在數(shù)據(jù)湖里備用。

數(shù)據(jù)湖的實現(xiàn)通常建立在Hadoop生態(tài)上，可能直接存儲在HDFS上，也可能存儲在HBase或Hive上，也有用關系型數(shù)據(jù)庫作為數(shù)據(jù)湖存儲的可能性存在。

Hadoop的數(shù)據(jù)分析平臺怎么搭建

下圖說明了數(shù)據(jù)分析平臺的數(shù)據(jù)處理流程：

Hadoop的數(shù)據(jù)分析平臺怎么搭建

數(shù)據(jù)分析基本都是單獨的系統(tǒng)，會將其他數(shù)據(jù)源的數(shù)據(jù)(即外部數(shù)據(jù))同步到數(shù)據(jù)平臺的存儲體系來(即數(shù)據(jù)湖)，一般數(shù)據(jù)先進入到接入層，這一層只簡單的將外部數(shù)據(jù)同步到數(shù)據(jù)分析平臺，沒有做其他處理，這樣同步出錯后重試即可，有定時同步和流式同步兩種：

定時同步即我們設定在指定時間觸發(fā)同步動作;
流式同步即外部數(shù)據(jù)通過Kafka或MQ發(fā)送數(shù)據(jù)修改通知及內(nèi)容。

數(shù)據(jù)分析平臺執(zhí)行對應操作修改數(shù)據(jù)。

接入層數(shù)據(jù)需要經(jīng)過ETL處理步驟才會進入數(shù)據(jù)倉庫，數(shù)據(jù)分析人員都是基于數(shù)據(jù)倉庫的數(shù)據(jù)來做分析計算，數(shù)據(jù)倉庫可以看作數(shù)據(jù)分析的***來源，ETL會將接入層的數(shù)據(jù)做數(shù)據(jù)清洗、轉(zhuǎn)換，再加載到數(shù)據(jù)倉庫，過濾或處理不合法、不完整的數(shù)據(jù)，并使用統(tǒng)一的維度來表示數(shù)據(jù)狀態(tài)。有的系統(tǒng)會在這一層就將數(shù)據(jù)倉庫構建成數(shù)據(jù)立方體、將維度信息構建成雪花或星型模式;也有的系統(tǒng)這一層只是統(tǒng)一了所有數(shù)據(jù)信息，沒有做數(shù)據(jù)立方體，留在數(shù)據(jù)集市做。

數(shù)據(jù)集市是基于數(shù)據(jù)倉庫數(shù)據(jù)對業(yè)務關心的信息做計算提取后得到的進一步信息，是業(yè)務人員直接面對的信息，是數(shù)據(jù)倉庫的進一步計算和深入分析的結果，一般都會構建數(shù)據(jù)立方體。系統(tǒng)開發(fā)人員一般會開發(fā)頁面來向用戶展示數(shù)據(jù)集市的數(shù)據(jù)。

二、基于Hadoop構建數(shù)據(jù)分析平臺

基于Hadoop構建的數(shù)據(jù)分析平臺建構理論與數(shù)據(jù)處理流程與前面講的相同。傳統(tǒng)分析平臺使用數(shù)據(jù)庫套件構建，這里我們使用Hadoop平臺的組件。

Hadoop的數(shù)據(jù)分析平臺怎么搭建

上面這張圖是我們使用到的Hadoop平臺的組件，數(shù)據(jù)從下到上流動，數(shù)據(jù)處理流程和上面說的一致。

任務調(diào)度負責將數(shù)據(jù)處理的流程串聯(lián)起來，這里我選擇使用的是Oozie，也有很多其它選擇。

1、數(shù)據(jù)存儲

基于Hadoop的數(shù)據(jù)湖主要用到了HDFS、Hive和HBase，HDFS是Hadoop平臺的文件存儲系統(tǒng)，我們直接操縱文件是比較復雜的，所以可以使用分布式數(shù)據(jù)庫Hive或HBase用來做數(shù)據(jù)湖，存儲接入層、數(shù)據(jù)倉庫、數(shù)據(jù)集市的數(shù)據(jù)。

Hive和HBase各有優(yōu)勢：HBase是一個NoSql數(shù)據(jù)庫，隨機查詢性能和可擴展性都比較好;而Hive是一個基于HDFS的數(shù)據(jù)庫，數(shù)據(jù)文件都以HDFS文件(夾)形式存放，存儲了表的存儲位置(即在HDFS中的位置)、存儲格式等元數(shù)據(jù)，Hive支持SQL查詢，可將查詢解析成Map/Reduce執(zhí)行，這對傳統(tǒng)的數(shù)據(jù)分析平臺開發(fā)人員更友好。

Hive數(shù)據(jù)格式可選擇文本格式或二進制格式，文本格式有csv、json或自定義分隔，二進制格式有orc或parquet，他們都基于行列式存儲，在查詢時性能更好。同時可選擇分區(qū)(partition)，這樣在查詢時可通過條件過濾進一步減少數(shù)據(jù)量。接入層一般選擇csv或json等文本格式，也不做分區(qū)，以盡量簡化數(shù)據(jù)同步。數(shù)據(jù)倉庫則選擇orc或parquet，以提升數(shù)據(jù)離線計算性能。

數(shù)據(jù)集市這塊可以選擇將數(shù)據(jù)灌回傳統(tǒng)數(shù)據(jù)庫(RDBMS)，也可以停留在數(shù)據(jù)分析平臺，使用NOSQL提供數(shù)據(jù)查詢或用Apache Kylin來構建數(shù)據(jù)立方體，提供SQL查詢接口。

2、數(shù)據(jù)同步

我們通過數(shù)據(jù)同步功能使得數(shù)據(jù)到達接入層，使用到了Sqoop和Kafka。數(shù)據(jù)同步可以分為全量同步和增量同步，對于小表可以采用全量同步，對于大表全量同步是比較耗時的，一般都采用增量同步，將變動同步到數(shù)據(jù)平臺執(zhí)行，以達到兩邊數(shù)據(jù)一致的目的。

全量同步使用Sqoop來完成，增量同步如果考慮定時執(zhí)行，也可以用Sqoop來完成?；蛘?，也可以通過Kafka等MQ流式同步數(shù)據(jù)，前提是外部數(shù)據(jù)源會將變動發(fā)送到MQ。

3、ETL及離線計算

我們使用Yarn來統(tǒng)一管理和調(diào)度計算資源。相較Map/Reduce，Spark SQL及Spark RDD對開發(fā)人員更友好，基于內(nèi)存計算效率也更高，所以我們使用Spark on Yarn作為分析平臺的計算選型。

ETL可以通過Spark SQL或Hive SQL來完成，Hive在2.0以后支持存儲過程，使用起來更方便。當然，出于性能考慮Saprk SQL還是不錯的選擇。

“Hadoop的數(shù)據(jù)分析平臺怎么搭建”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關的知識可以關注創(chuàng)新互聯(lián)網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實用文章！

當前題目：Hadoop的數(shù)據(jù)分析平臺怎么搭建
網(wǎng)站鏈接：http://www.rwnh.cn/article34/ggohpe.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供App設計、網(wǎng)站內(nèi)鏈、定制網(wǎng)站、網(wǎng)站改版、外貿(mào)建站、網(wǎng)站收錄

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

Hadoop的數(shù)據(jù)分析平臺怎么搭建