中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

Hadoop學(xué)習(xí)之路(一)——Hadoop家族學(xué)習(xí)路線圖-創(chuàng)新互聯(lián)

主要介紹Hadoop家族產(chǎn)品,常用的項(xiàng)目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的項(xiàng)目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

在城子河等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供成都網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè) 網(wǎng)站設(shè)計(jì)制作按需網(wǎng)站開(kāi)發(fā),公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),成都品牌網(wǎng)站建設(shè),成都全網(wǎng)營(yíng)銷(xiāo),外貿(mào)營(yíng)銷(xiāo)網(wǎng)站建設(shè),城子河網(wǎng)站建設(shè)費(fèi)用合理。

從2011年開(kāi)始,中國(guó)進(jìn)入大數(shù)據(jù)風(fēng)起云涌的時(shí)代,以Hadoop為代表的家族軟件,占據(jù)了大數(shù)據(jù)處理的廣闊地盤(pán)。開(kāi)源界及廠商,所有數(shù)據(jù)軟件,無(wú) 一不向Hadoop靠攏。Hadoop也從小眾的高富帥領(lǐng)域,變成了大數(shù)據(jù)開(kāi)發(fā)的標(biāo)準(zhǔn)。在Hadoop原有技術(shù)基礎(chǔ)之上,出現(xiàn)了Hadoop家族產(chǎn)品,通 過(guò)“大數(shù)據(jù)”概念不斷創(chuàng)新,推出科技進(jìn)步。

作為IT界的開(kāi)發(fā)人員,我們也要跟上節(jié)奏,抓住機(jī)遇,跟著Hadoop一起雄起!

Hadoop學(xué)習(xí)之路(一)——Hadoop家族學(xué)習(xí)路線圖

前言

使用Hadoop已經(jīng)有一段時(shí)間了,從開(kāi)始的迷茫,到各種的嘗試,到現(xiàn)在組合應(yīng)用….慢慢地涉及到數(shù)據(jù)處理的事情,已經(jīng)離不開(kāi)hadoop了。Hadoop在大數(shù)據(jù)領(lǐng)域的成功,更引發(fā)了它本身的加速發(fā)展?,F(xiàn)在Hadoop家族產(chǎn)品,已經(jīng)達(dá)到20個(gè)了之多。

有必要對(duì)自己的知識(shí)做一個(gè)整理了,把產(chǎn)品和技術(shù)都串起來(lái)。不僅能加深印象,更可以對(duì)以后的技術(shù)方向,技術(shù)選型做好基礎(chǔ)準(zhǔn)備。

本文為“Hadoop家族”開(kāi)篇,Hadoop家族學(xué)習(xí)路線圖

目錄

  1. Hadoop家族產(chǎn)品

  2. Hadoop家族學(xué)習(xí)路線圖

1. Hadoop家族產(chǎn)品

截止到2013年,根據(jù)cloudera的統(tǒng)計(jì),Hadoop家族產(chǎn)品已經(jīng)達(dá)到20個(gè)!
http://blog.cloudera.com/blog/2013/01/apache-hadoop-in-2013-the-state-of-the-platform/

接下來(lái),我把這20個(gè)產(chǎn)品,分成了2類(lèi)。

  • 第一類(lèi),是我已經(jīng)掌握的

  • 第二類(lèi),是TODO準(zhǔn)備繼續(xù)學(xué)習(xí)的

Hadoop學(xué)習(xí)之路(一)——Hadoop家族學(xué)習(xí)路線圖

一句話產(chǎn)品介紹:

  • Apache Hadoop: 是Apache開(kāi)源組織的一個(gè)分布式計(jì)算開(kāi)源框架,提供了一個(gè)分布式文件系統(tǒng)子項(xiàng)目(HDFS)和支持MapReduce分布式計(jì)算的軟件架構(gòu)。

  • Apache Hive: 是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開(kāi)發(fā)專門(mén)的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。

  • Apache Pig: 是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析工具,它提供的SQL-LIKE語(yǔ)言叫Pig Latin,該語(yǔ)言的編譯器會(huì)把類(lèi)SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過(guò)優(yōu)化處理的MapReduce運(yùn)算。

  • Apache HBase: 是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。

  • Apache Sqoop: 是一個(gè)用來(lái)將Hadoop和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。

  • Apache Zookeeper: 是一個(gè)為分布式應(yīng)用所設(shè)計(jì)的分布的、開(kāi)源的協(xié)調(diào)服務(wù),它主要是用來(lái)解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問(wèn)題,簡(jiǎn)化分布式應(yīng)用協(xié)調(diào)及其管理的難度,提供高性能的分布式服務(wù)

  • Apache Mahout:是基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個(gè)分布式框架。Mahout用MapReduce實(shí)現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法,解決了并行挖掘的問(wèn)題。

  • Apache Cassandra:是一套開(kāi)源分布式NoSQL數(shù)據(jù)庫(kù)系統(tǒng)。它最初由Facebook開(kāi)發(fā),用于儲(chǔ)存簡(jiǎn)單格式數(shù)據(jù),集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式的架構(gòu)于一身

  • Apache Avro: 是一個(gè)數(shù)據(jù)序列化系統(tǒng),設(shè)計(jì)用于支持?jǐn)?shù)據(jù)密集型,大批量數(shù)據(jù)交換的應(yīng)用。Avro是新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機(jī)制

  • Apache Ambari: 是一種基于Web的工具,支持Hadoop集群的供應(yīng)、管理和監(jiān)控。

  • Apache Chukwa: 是一個(gè)開(kāi)源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),它可以將各種各樣類(lèi)型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進(jìn)行各種 MapReduce 操作。

  • Apache Hama: 是一個(gè)基于HDFS的BSP(Bulk Synchronous Parallel)并行計(jì)算框架, Hama可用于包括圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模、大數(shù)據(jù)計(jì)算。

  • Apache Flume: 是一個(gè)分布的、可靠的、高可用的海量日志聚合的系統(tǒng),可用于日志數(shù)據(jù)收集,日志數(shù)據(jù)處理,日志數(shù)據(jù)傳輸。

  • Apache Giraph: 是一個(gè)可伸縮的分布式迭代圖處理系統(tǒng), 基于Hadoop平臺(tái),靈感來(lái)自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

  • Apache Oozie: 是一個(gè)工作流引擎服務(wù)器, 用于管理和協(xié)調(diào)運(yùn)行在Hadoop平臺(tái)上(HDFS、Pig和MapReduce)的任務(wù)。

  • Apache Crunch: 是基于Google的FlumeJava庫(kù)編寫(xiě)的Java庫(kù),用于創(chuàng)建MapReduce程序。與Hive,Pig類(lèi)似,Crunch提供了用于實(shí)現(xiàn)如連接數(shù)據(jù)、執(zhí)行聚合和排序記錄等常見(jiàn)任務(wù)的模式庫(kù)

  • Apache Whirr: 是一套運(yùn)行于云服務(wù)的類(lèi)庫(kù)(包括Hadoop),可提供高度的互補(bǔ)性。Whirr學(xué)支持Amazon EC2和Rackspace的服務(wù)。

  • Apache Bigtop: 是一個(gè)對(duì)Hadoop及其周邊生態(tài)進(jìn)行打包,分發(fā)和測(cè)試的工具。

  • Apache HCatalog: 是基于Hadoop的數(shù)據(jù)表和存儲(chǔ)管理,實(shí)現(xiàn)中央的元數(shù)據(jù)和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供關(guān)系視圖。

  • Cloudera Hue: 是一個(gè)基于WEB的監(jiān)控和管理系統(tǒng),實(shí)現(xiàn)對(duì)HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。

2. Hadoop家族學(xué)習(xí)路線圖

下面我將分別介紹各個(gè)產(chǎn)品的安裝和使用,以我經(jīng)驗(yàn)總結(jié)我的學(xué)習(xí)路線。

Hadoop

  • Hadoop學(xué)習(xí)路線圖

  • Yarn學(xué)習(xí)路線圖

  • 用Maven構(gòu)建Hadoop項(xiàng)目

  • Hadoop歷史版本安裝

  • Hadoop編程調(diào)用HDFS

  • 海量Web日志分析 用Hadoop提取KPI統(tǒng)計(jì)指標(biāo)

  • 用Hadoop構(gòu)建電影推薦系統(tǒng)

  • 創(chuàng)建Hadoop母體虛擬機(jī)

  • 克隆虛擬機(jī)增加Hadoop節(jié)點(diǎn)

  • R語(yǔ)言為Hadoop注入統(tǒng)計(jì)血脈

  • RHadoop實(shí)踐系列之一 Hadoop環(huán)境搭建

Hive

  • Hive學(xué)習(xí)路線圖

  • Hive安裝及使用攻略

  • Hive導(dǎo)入10G數(shù)據(jù)的測(cè)試

  • R利劍NoSQL系列文章 之 Hive

  • 用RHive從歷史數(shù)據(jù)中提取逆回購(gòu)信息

Pig

  • Pig學(xué)習(xí)路線圖

Zookeeper

  • Zookeeper學(xué)習(xí)路線圖

  • ZooKeeper偽分步式集群安裝及使用

  • ZooKeeper實(shí)現(xiàn)分布式隊(duì)列Queue

  • ZooKeeper實(shí)現(xiàn)分布式FIFO隊(duì)列

HBase

  • HBase學(xué)習(xí)路線圖

  • RHadoop實(shí)踐系列之四  rhbase安裝與使用

Mahout

  • Mahout學(xué)習(xí)路線圖

  • 用R解析Mahout用戶推薦協(xié)同過(guò)濾算法(UserCF)

  • RHadoop實(shí)踐系列之三 R實(shí)現(xiàn)MapReduce的協(xié)同過(guò)濾算法

  • 用Maven構(gòu)建Mahout項(xiàng)目

  • Mahout推薦算法API詳解

  • 從源代碼剖析Mahout推薦引擎

  • Mahout分步式程序開(kāi)發(fā) 基于物品的協(xié)同過(guò)濾ItemCF

  • Mahout分步式程序開(kāi)發(fā) 聚類(lèi)Kmeans

  • 用Mahout構(gòu)建職位推薦引擎

Sqoop

  • Sqoop學(xué)習(xí)路線圖

Cassandra

  • Cassandra學(xué)習(xí)路線圖

  • Cassandra單集群實(shí)驗(yàn)2個(gè)節(jié)點(diǎn)

  • R利劍NoSQL系列文章 之 Cassandra

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

網(wǎng)頁(yè)標(biāo)題:Hadoop學(xué)習(xí)之路(一)——Hadoop家族學(xué)習(xí)路線圖-創(chuàng)新互聯(lián)
標(biāo)題網(wǎng)址:http://www.rwnh.cn/article14/jdpde.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站制作、響應(yīng)式網(wǎng)站、虛擬主機(jī)、手機(jī)網(wǎng)站建設(shè)、網(wǎng)站營(yíng)銷(xiāo)、網(wǎng)站策劃

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

營(yíng)銷(xiāo)型網(wǎng)站建設(shè)
延吉市| 蒙山县| 珲春市| 睢宁县| 钟山县| 朔州市| 莱西市| 昂仁县| 永仁县| 通辽市| 和林格尔县| 嘉峪关市| 日喀则市| 谢通门县| 中宁县| 错那县| 喜德县| 三都| 邳州市| 科尔| 江华| 游戏| 平遥县| 毕节市| 铜山县| 台中市| 星座| 东阳市| 大姚县| 新巴尔虎右旗| 旺苍县| 隆化县| 万载县| 柳州市| 禹州市| 买车| 罗定市| 和田市| 嵊泗县| 枝江市| 楚雄市|