主要介紹Hadoop家族產(chǎn)品,常用的項(xiàng)目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的項(xiàng)目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。
在城子河等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供成都網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè) 網(wǎng)站設(shè)計(jì)制作按需網(wǎng)站開(kāi)發(fā),公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),成都品牌網(wǎng)站建設(shè),成都全網(wǎng)營(yíng)銷(xiāo),外貿(mào)營(yíng)銷(xiāo)網(wǎng)站建設(shè),城子河網(wǎng)站建設(shè)費(fèi)用合理。從2011年開(kāi)始,中國(guó)進(jìn)入大數(shù)據(jù)風(fēng)起云涌的時(shí)代,以Hadoop為代表的家族軟件,占據(jù)了大數(shù)據(jù)處理的廣闊地盤(pán)。開(kāi)源界及廠商,所有數(shù)據(jù)軟件,無(wú) 一不向Hadoop靠攏。Hadoop也從小眾的高富帥領(lǐng)域,變成了大數(shù)據(jù)開(kāi)發(fā)的標(biāo)準(zhǔn)。在Hadoop原有技術(shù)基礎(chǔ)之上,出現(xiàn)了Hadoop家族產(chǎn)品,通 過(guò)“大數(shù)據(jù)”概念不斷創(chuàng)新,推出科技進(jìn)步。
作為IT界的開(kāi)發(fā)人員,我們也要跟上節(jié)奏,抓住機(jī)遇,跟著Hadoop一起雄起!
前言
使用Hadoop已經(jīng)有一段時(shí)間了,從開(kāi)始的迷茫,到各種的嘗試,到現(xiàn)在組合應(yīng)用….慢慢地涉及到數(shù)據(jù)處理的事情,已經(jīng)離不開(kāi)hadoop了。Hadoop在大數(shù)據(jù)領(lǐng)域的成功,更引發(fā)了它本身的加速發(fā)展?,F(xiàn)在Hadoop家族產(chǎn)品,已經(jīng)達(dá)到20個(gè)了之多。
有必要對(duì)自己的知識(shí)做一個(gè)整理了,把產(chǎn)品和技術(shù)都串起來(lái)。不僅能加深印象,更可以對(duì)以后的技術(shù)方向,技術(shù)選型做好基礎(chǔ)準(zhǔn)備。
本文為“Hadoop家族”開(kāi)篇,Hadoop家族學(xué)習(xí)路線圖
目錄
Hadoop家族產(chǎn)品
Hadoop家族學(xué)習(xí)路線圖
截止到2013年,根據(jù)cloudera的統(tǒng)計(jì),Hadoop家族產(chǎn)品已經(jīng)達(dá)到20個(gè)!
http://blog.cloudera.com/blog/2013/01/apache-hadoop-in-2013-the-state-of-the-platform/
接下來(lái),我把這20個(gè)產(chǎn)品,分成了2類(lèi)。
第一類(lèi),是我已經(jīng)掌握的
第二類(lèi),是TODO準(zhǔn)備繼續(xù)學(xué)習(xí)的
一句話產(chǎn)品介紹:
Apache Hadoop: 是Apache開(kāi)源組織的一個(gè)分布式計(jì)算開(kāi)源框架,提供了一個(gè)分布式文件系統(tǒng)子項(xiàng)目(HDFS)和支持MapReduce分布式計(jì)算的軟件架構(gòu)。
Apache Hive: 是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開(kāi)發(fā)專門(mén)的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。
Apache Pig: 是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析工具,它提供的SQL-LIKE語(yǔ)言叫Pig Latin,該語(yǔ)言的編譯器會(huì)把類(lèi)SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過(guò)優(yōu)化處理的MapReduce運(yùn)算。
Apache HBase: 是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。
Apache Sqoop: 是一個(gè)用來(lái)將Hadoop和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。
Apache Zookeeper: 是一個(gè)為分布式應(yīng)用所設(shè)計(jì)的分布的、開(kāi)源的協(xié)調(diào)服務(wù),它主要是用來(lái)解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問(wèn)題,簡(jiǎn)化分布式應(yīng)用協(xié)調(diào)及其管理的難度,提供高性能的分布式服務(wù)
Apache Mahout:是基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個(gè)分布式框架。Mahout用MapReduce實(shí)現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法,解決了并行挖掘的問(wèn)題。
Apache Cassandra:是一套開(kāi)源分布式NoSQL數(shù)據(jù)庫(kù)系統(tǒng)。它最初由Facebook開(kāi)發(fā),用于儲(chǔ)存簡(jiǎn)單格式數(shù)據(jù),集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式的架構(gòu)于一身
Apache Avro: 是一個(gè)數(shù)據(jù)序列化系統(tǒng),設(shè)計(jì)用于支持?jǐn)?shù)據(jù)密集型,大批量數(shù)據(jù)交換的應(yīng)用。Avro是新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機(jī)制
Apache Ambari: 是一種基于Web的工具,支持Hadoop集群的供應(yīng)、管理和監(jiān)控。
Apache Chukwa: 是一個(gè)開(kāi)源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),它可以將各種各樣類(lèi)型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進(jìn)行各種 MapReduce 操作。
Apache Hama: 是一個(gè)基于HDFS的BSP(Bulk Synchronous Parallel)并行計(jì)算框架, Hama可用于包括圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模、大數(shù)據(jù)計(jì)算。
Apache Flume: 是一個(gè)分布的、可靠的、高可用的海量日志聚合的系統(tǒng),可用于日志數(shù)據(jù)收集,日志數(shù)據(jù)處理,日志數(shù)據(jù)傳輸。
Apache Giraph: 是一個(gè)可伸縮的分布式迭代圖處理系統(tǒng), 基于Hadoop平臺(tái),靈感來(lái)自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
Apache Oozie: 是一個(gè)工作流引擎服務(wù)器, 用于管理和協(xié)調(diào)運(yùn)行在Hadoop平臺(tái)上(HDFS、Pig和MapReduce)的任務(wù)。
Apache Crunch: 是基于Google的FlumeJava庫(kù)編寫(xiě)的Java庫(kù),用于創(chuàng)建MapReduce程序。與Hive,Pig類(lèi)似,Crunch提供了用于實(shí)現(xiàn)如連接數(shù)據(jù)、執(zhí)行聚合和排序記錄等常見(jiàn)任務(wù)的模式庫(kù)
Apache Whirr: 是一套運(yùn)行于云服務(wù)的類(lèi)庫(kù)(包括Hadoop),可提供高度的互補(bǔ)性。Whirr學(xué)支持Amazon EC2和Rackspace的服務(wù)。
Apache Bigtop: 是一個(gè)對(duì)Hadoop及其周邊生態(tài)進(jìn)行打包,分發(fā)和測(cè)試的工具。
Apache HCatalog: 是基于Hadoop的數(shù)據(jù)表和存儲(chǔ)管理,實(shí)現(xiàn)中央的元數(shù)據(jù)和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供關(guān)系視圖。
Cloudera Hue: 是一個(gè)基于WEB的監(jiān)控和管理系統(tǒng),實(shí)現(xiàn)對(duì)HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。
下面我將分別介紹各個(gè)產(chǎn)品的安裝和使用,以我經(jīng)驗(yàn)總結(jié)我的學(xué)習(xí)路線。
Hadoop
Hadoop學(xué)習(xí)路線圖
Yarn學(xué)習(xí)路線圖
用Maven構(gòu)建Hadoop項(xiàng)目
Hadoop歷史版本安裝
Hadoop編程調(diào)用HDFS
海量Web日志分析 用Hadoop提取KPI統(tǒng)計(jì)指標(biāo)
用Hadoop構(gòu)建電影推薦系統(tǒng)
創(chuàng)建Hadoop母體虛擬機(jī)
克隆虛擬機(jī)增加Hadoop節(jié)點(diǎn)
R語(yǔ)言為Hadoop注入統(tǒng)計(jì)血脈
RHadoop實(shí)踐系列之一 Hadoop環(huán)境搭建
Hive
Hive學(xué)習(xí)路線圖
Hive安裝及使用攻略
Hive導(dǎo)入10G數(shù)據(jù)的測(cè)試
R利劍NoSQL系列文章 之 Hive
用RHive從歷史數(shù)據(jù)中提取逆回購(gòu)信息
Pig
Pig學(xué)習(xí)路線圖
Zookeeper
Zookeeper學(xué)習(xí)路線圖
ZooKeeper偽分步式集群安裝及使用
ZooKeeper實(shí)現(xiàn)分布式隊(duì)列Queue
ZooKeeper實(shí)現(xiàn)分布式FIFO隊(duì)列
HBase
HBase學(xué)習(xí)路線圖
RHadoop實(shí)踐系列之四 rhbase安裝與使用
Mahout
Mahout學(xué)習(xí)路線圖
用R解析Mahout用戶推薦協(xié)同過(guò)濾算法(UserCF)
RHadoop實(shí)踐系列之三 R實(shí)現(xiàn)MapReduce的協(xié)同過(guò)濾算法
用Maven構(gòu)建Mahout項(xiàng)目
Mahout推薦算法API詳解
從源代碼剖析Mahout推薦引擎
Mahout分步式程序開(kāi)發(fā) 基于物品的協(xié)同過(guò)濾ItemCF
Mahout分步式程序開(kāi)發(fā) 聚類(lèi)Kmeans
用Mahout構(gòu)建職位推薦引擎
Sqoop
Sqoop學(xué)習(xí)路線圖
Cassandra
Cassandra學(xué)習(xí)路線圖
Cassandra單集群實(shí)驗(yàn)2個(gè)節(jié)點(diǎn)
R利劍NoSQL系列文章 之 Cassandra
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
網(wǎng)頁(yè)標(biāo)題:Hadoop學(xué)習(xí)之路(一)——Hadoop家族學(xué)習(xí)路線圖-創(chuàng)新互聯(lián)
標(biāo)題網(wǎng)址:http://www.rwnh.cn/article14/jdpde.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站制作、響應(yīng)式網(wǎng)站、虛擬主機(jī)、手機(jī)網(wǎng)站建設(shè)、網(wǎng)站營(yíng)銷(xiāo)、網(wǎng)站策劃
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容