大數(shù)據(jù)hadoop領(lǐng)域技術(shù)總體介紹（各個(gè)組件的作用）-創(chuàng)新互聯(lián)

2019/2/16 星期六

大數(shù)據(jù)領(lǐng)域技術(shù)總體介紹（各個(gè)組件的作用）
1、大數(shù)據(jù)技術(shù)介紹
大數(shù)據(jù)技術(shù)生態(tài)體系：
Hadoop 元老級(jí)分布式海量數(shù)據(jù)存儲(chǔ)、處理技術(shù)系統(tǒng)，擅長(zhǎng)離線數(shù)據(jù)分析
Hbase 基于hadoop 的分布式海量數(shù)據(jù)庫(kù)，離線分析和在線業(yè)務(wù)通吃
Hive sql 基于hadoop 的數(shù)據(jù)倉(cāng)庫(kù)工具，使用方便，功能豐富，使用方法類似SQL
Zookeeper 集群協(xié)調(diào)服務(wù)
Sqoop 數(shù)據(jù)導(dǎo)入導(dǎo)出工具
Flume 數(shù)據(jù)采集框架 //經(jīng)常會(huì)結(jié)合kafka+flume數(shù)據(jù)流或者用于大量的日志收集到hdfs上日志收集分析大多數(shù)企業(yè)用elk
Storm 實(shí)時(shí)流式計(jì)算框架，流式處理領(lǐng)域頭牌框架
Spark 基于內(nèi)存的分布式運(yùn)算框架，一站式處理all in one，新秀，發(fā)展勢(shì)頭迅猛
sparkCore //應(yīng)用開(kāi)發(fā)
SparkSQL //sql操作類似hive
SparkStreaming //類似于storm

創(chuàng)新互聯(lián)公司主要從事成都網(wǎng)站建設(shè)、做網(wǎng)站、網(wǎng)頁(yè)設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)旬陽(yáng),十載網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來(lái)電咨詢建站服務(wù):18980820575

機(jī)器學(xué)習(xí)：
Mahout 基于mapreduce 的機(jī)器學(xué)習(xí)算法庫(kù)
MLLIB 基于spark 機(jī)器學(xué)習(xí)算法庫(kù)

大數(shù)據(jù)hadoop領(lǐng)域技術(shù)總體介紹（各個(gè)組件的作用）

由上圖可以看出，大數(shù)據(jù)hadoop生態(tài)圈中類似于一個(gè)動(dòng)物園，zookeeper組件就類似于一個(gè)管理者，管理這些動(dòng)物。//大數(shù)據(jù)生態(tài)圈的組件很多，不知我們上面提到的組件，圖中展示的為基本組件。

2、需要由潛到深
一、理解該框架的功能和適用場(chǎng)景
二、使用（安裝部署，編程規(guī)范，API）
三、運(yùn)行機(jī)制
四、結(jié)構(gòu)原理
五、源碼

3、hadoop基本介紹
（1）hadoop 是用于處理（運(yùn)算分析）海量數(shù)據(jù)的技術(shù)平臺(tái)，且是采用分布式集群的方式；
（2）hadoop 兩個(gè)大的功能：
? 提供海量數(shù)據(jù)的存儲(chǔ)服務(wù)；
? 提供分析海量數(shù)據(jù)的編程框架及運(yùn)行平臺(tái)；
（3）Hadoop 有3大核心組件：
? HDFS---- hadoop 分布式文件系統(tǒng)海量數(shù)據(jù)的存儲(chǔ)(集群服務(wù))，
? MapReduce----分布式運(yùn)算框架（編程框架）（導(dǎo)jar 包寫(xiě)程序），海量數(shù)據(jù)運(yùn)算分析（替代品：storm /spark 等）
? Yarn ----資源調(diào)度管理集群(可以理解為一個(gè)分布式的操作系統(tǒng)，管理和分配集群硬件資源)
（4）使用Hadoop：
? 可以把hadoop 理解為一個(gè)編程框架（類比：structs、spring、hibernate/mybatis），有著自己特定的API 封裝和用戶編程規(guī)范，用戶可借助這些API 來(lái)實(shí)現(xiàn)數(shù)據(jù)處理邏輯；從另一個(gè)角度，hadoop 又可以理解為一個(gè)提供服務(wù)的軟件（類比：數(shù)據(jù)庫(kù)服務(wù)
oracle/mysql、索引服務(wù)solr，緩存服務(wù)redis 等），用戶程序通過(guò)客戶端向hadoop集群請(qǐng)求服務(wù)來(lái)實(shí)現(xiàn)特定的功能；
（5）Hadoop 產(chǎn)生的歷史
最早來(lái)自于google 的三大技術(shù)論文：GFS/MAPREDUCE/BIG TABLE
（為什么google 會(huì)需要這么一種技術(shù)？）
后來(lái)經(jīng)過(guò)doug cutting 的“山寨”，出現(xiàn)了java 版本的hdfs mapreduce 和hbase
并成為apache 的頂級(jí)項(xiàng)目hadoop ，hbase
經(jīng)過(guò)演化，hadoop 的組件又多出一個(gè)yarn（mapreduce+ yarn + hdfs）
而且，hadoop 外圍產(chǎn)生了越來(lái)越多的工具組件，形成一個(gè)龐大的hadoop 生態(tài)體系

為什么需要hadoop
在數(shù)據(jù)量很大的情況下，單機(jī)的處理能力無(wú)法勝任，必須采用分布式集群的方式進(jìn)行處理，而用分布式集群的方式處理數(shù)據(jù)，實(shí)現(xiàn)的復(fù)雜度呈級(jí)數(shù)增加，所以，在海量數(shù)據(jù)處理的需求下，一個(gè)通用的分布式數(shù)據(jù)處理技術(shù)框架能大大降低應(yīng)用開(kāi)發(fā)難度和減少工作量。

hadoop業(yè)務(wù)的整體開(kāi)發(fā)流程：見(jiàn)圖
flume數(shù)據(jù)采集--->MapReduce清洗---->存入hbase或者h(yuǎn)dfs---->hive統(tǒng)計(jì)分析---->存入hive表中--->sqoop導(dǎo)入導(dǎo)出--->mysql數(shù)據(jù)庫(kù)--->web展示

大數(shù)據(jù)hadoop領(lǐng)域技術(shù)總體介紹（各個(gè)組件的作用）

提示：其中我們當(dāng)數(shù)據(jù)量非常大的時(shí)候，我們可以在flume數(shù)據(jù)采集節(jié)點(diǎn)加入kafka消息隊(duì)列形成緩存區(qū)；在數(shù)據(jù)清洗階段我們可以用spark 或者storm flink等內(nèi)存和實(shí)時(shí)流算法框架（針對(duì)不同的業(yè)務(wù)場(chǎng)景）；存入hadoop中的HBASE或者h(yuǎn)dfs中；在數(shù)據(jù)分析階段，我們可以用hive或者impala等計(jì)算工具；web展示的時(shí)候，可以把數(shù)據(jù)用elk中kabina//數(shù)據(jù)可視化工具kabina或者Grafana

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無(wú)理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì)，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

網(wǎng)站題目：大數(shù)據(jù)hadoop領(lǐng)域技術(shù)總體介紹（各個(gè)組件的作用）-創(chuàng)新互聯(lián)
網(wǎng)址分享：http://www.rwnh.cn/article28/dhhejp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站維護(hù)、軟件開(kāi)發(fā)、服務(wù)器托管、動(dòng)態(tài)網(wǎng)站、自適應(yīng)網(wǎng)站、搜索引擎優(yōu)化

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

大數(shù)據(jù)hadoop領(lǐng)域技術(shù)總體介紹（各個(gè)組件的作用）-創(chuàng)新互聯(lián)

2019/2/16 星期六