中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

大數(shù)據(jù)新手入門:給剛玩Hadoop的朋友一些建議

互聯(lián)網(wǎng)IDC圈1月28日報道:隨著兩會中間央視新聞天天說大數(shù)據(jù),很多人紛紛開始關(guān)注大數(shù)據(jù)和Hadoop以及數(shù)據(jù)挖掘和數(shù)據(jù)可視化了,我現(xiàn)在創(chuàng)業(yè),遇到很多傳統(tǒng)數(shù)據(jù)行業(yè)往Hadoop上面去轉(zhuǎn)型的公司和個人,提了很多問題,大多數(shù)問題還都是差不多的。所以我想整理一些,也可能是很多人都關(guān)注的問題。

目前成都創(chuàng)新互聯(lián)已為上千家的企業(yè)提供了網(wǎng)站建設(shè)、域名、虛擬空間、網(wǎng)站托管、服務(wù)器租用、企業(yè)網(wǎng)站設(shè)計、巨野網(wǎng)站維護等服務(wù),公司將堅持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。

關(guān)于Hadoop版本的選擇?

目前為止,作為半只腳邁進Hadoop大門的人,我建議大家還是選擇Hadoop 1.x用。可能很多人會說,Hadoop都出到2.4,為啥還用1.x呢,說這話一聽就沒玩過hadoop。

理由一: Hadoop 1.x和2.x是完全兩個不同的東西,并不是像說單機的webserver從1.0升級到2.0那么簡單的事情。也不是說我現(xiàn)在用的mysql 5.0,只要編譯一個新版本就直接無縫遷移到5.5的事情。Hadoop從1.0過度到2.0是整個架構(gòu)體系全部推翻重寫的。從實現(xiàn)方式到用戶接口完全是兩個完全不同的東西,不要簡單的認(rèn)為那不過就像nginx從0.8升級到1.4一樣。所以我給的建議是,生產(chǎn)環(huán)境用1.x,實驗環(huán)境部署2.x作為熟悉使用。

理由二: 依然是,Hadoop不是webserver,分布式系統(tǒng)盡管Hadoop實現(xiàn)出來了,但是他仍然是非常復(fù)雜的一套體系,單說HDFS存儲,以前Hadoop 0.20.2想升級到0.20.203,首先你需要在所有節(jié)點部署上新版的Hadoop,然后停止整個集群的所有服務(wù),做好元數(shù)據(jù)備份,然后做HDFS升級,還不能保證HDFS一定能升級成功。這樣升級一次的代價是很大的,停服務(wù)不說,萬一升級不成功能不能保證元數(shù)據(jù)完整無誤都是不可預(yù)知的。遠(yuǎn)比你想象的麻煩的多得多得多。千萬不要以為有了Cloudera Manager或者其他管理軟件你就真的可以自動化運維了,部署Hadoop只是萬里長征的第一步而已。

理由三: Hadoop 2.x目前很不穩(wěn)定,Bug比較多,更新迭代速度太快,如果你想選擇2.x,想清楚再做決定,這玩意不是說你選擇新的版本就萬無一失了,Openssl多少年了,還出現(xiàn)了心臟滴血的漏洞,何況剛出來才不到一年的Hadoop2,要知道,Hadoop升級到1.0用了差不多7,8年的時間,而且經(jīng)過了無數(shù)大公司包括Yahoo,F(xiàn)acebook,BAT這樣的公司不停的更新,修補,才穩(wěn)定下來。Hadoop2才出現(xiàn)不到一年,根本沒有經(jīng)過長期穩(wěn)定的測試和運行,看最近Hadoop從2.3升級到2.4只用了一個半月,就修復(fù)了400多個bug。

所以,不建議大家現(xiàn)在直接在生產(chǎn)集群就上2.x,再等等看吧,等穩(wěn)定了再上也不遲。如果大家關(guān)注Apache JIRA的話,可以看到Hadoop 3.0已經(jīng)開始內(nèi)部bug跟蹤了。

關(guān)于Hadoop的人才?

我覺得企業(yè)需要從兩個方面來考慮hadoop的人才問題,一個是開發(fā)人才,一個是維護人才。

開發(fā)人才目前比較匱乏,基本都集中在互聯(lián)網(wǎng),但這個是一個在相對短時間內(nèi)能解決的事情,隨著Hadoop培訓(xùn)的普及和傳播。以及Hadoop本身在接口方面的完善,這樣的人才會越來越多。

維護人才我覺得互聯(lián)網(wǎng)外的行業(yè)一段時間內(nèi)基本不用考慮,不是太多了,而是根本沒有。Hadoop和云計算最后拼的就是運維,大規(guī)模分布式系統(tǒng)的運維人才極難培養(yǎng)。特別是DevOps,本身DevOps就很稀缺,而在稀缺人才中大部分又是用puppet, fabric去搞web運維的,轉(zhuǎn)向分布式系統(tǒng)運維難度還是有的。所以這種人才很難招聘,也很難培養(yǎng)。參看左耳朵耗子的InfoQ訪談 http://www.infoq.com/cn/articles/chenhao-on-cloud。

然后你需要明確自己想要的開發(fā)人才類型,打個比方Hadoop就好象是windows或者linux操作系統(tǒng),在這個操作系統(tǒng)上,既可以用photoshop畫圖,又可以用3dmax做動畫,也可以用Office處理表格,但是應(yīng)用軟件所實現(xiàn)的目的是不一樣的。這還是需要CTO,CIO對大數(shù)據(jù)和Hadoop及周邊應(yīng)用有個起碼的了解。不要把Hadoop跟mysql php或者傳統(tǒng)的J2EE做類比,認(rèn)為沒什么難的,大不了外包。完全不是這么回事。

關(guān)于Hadoop的培訓(xùn)內(nèi)容?

經(jīng)過幾家企業(yè)的Hadoop內(nèi)部培訓(xùn),我發(fā)現(xiàn)剛轉(zhuǎn)型企業(yè)都有一個問題是貪多。想做一次培訓(xùn)把hadoop和周邊所有東西都了解透了,比較典型的是我最近去上海培訓(xùn)的一個公司,從Hadoop到HBase到Mahout到分詞到Spark Storm全要聽。然后培訓(xùn)機構(gòu)就只能找?guī)讉€老師分別講不同的內(nèi)容,我覺得這種培訓(xùn)對企業(yè)的意義不大,頂多就是給員工一個扎堆睡午覺的機會。

第一、Hadoop就不是一兩次講課就能搞明白的東西,除了理論知識,還需要大量的實踐經(jīng)驗的支持。

第二、每個Hadoop生態(tài)組件都是一個很復(fù)雜的玩意,使用確實簡單,但是要真正理解每一個組件沒那么容易。尤其是Mahout,Spark,R這些涉及大量統(tǒng)計學(xué)和數(shù)學(xué)理論的玩意,你叫一幫搞產(chǎn)品的,毫無編程和統(tǒng)計學(xué)背景的人來聽課,他們真的只能睡午覺,我都覺得讓他們過來聽Hadoop是很殘忍的事情,明明聽不懂,因為領(lǐng)導(dǎo)在旁邊,還不得不努力堅持不睡覺。

第三、每個人擅長的領(lǐng)域不同,沒有任何一個老師既能講Windows服務(wù)器運維,又能講Excal高級技巧還能講3DMax動畫PhotoShop繪圖的。而培訓(xùn)機構(gòu)為了搶單,往往承諾企業(yè)找?guī)讉€老師一起講,企業(yè)也往往覺得,一樣的價格,我把所有都聽了,多爽啊。其實不然,每個老師的講課風(fēng)格,知識點水平,內(nèi)容設(shè)計都是不同的,雞肉,面粉,蔬菜放在一起不一定是大盤雞和皮帶面,也很有可能是方便面,最后搞得食之無味棄之可惜。所以企業(yè)在選擇做培訓(xùn)的時候一定要有的放矢,不要搞大而全,浪費資源不說,還毫無效果??梢苑珠_幾種不同的培訓(xùn)方向,找不同的,專業(yè)性強的培訓(xùn)機構(gòu)來完成。當(dāng)然,這也需要CTO,CIO具有一定的想法和眼光,更多的是,起碼你作為領(lǐng)導(dǎo)者,應(yīng)該比別人了解的更多一點,不是說技術(shù)細(xì)節(jié)上的,而是技術(shù)方向上的把握要比員工更精準(zhǔn)。

關(guān)于與傳統(tǒng)業(yè)務(wù)的對接?

這個也是很多人關(guān)心的,特別是傳統(tǒng)企業(yè),之前用的是Oracle,大量的數(shù)據(jù)存放在里面,一下子用Hadoop替代是不可能的。這個我覺得就屬于想多了,Hadoop說白了是離線分析處理工具,目的不是代替你的數(shù)據(jù)庫,事實上也根本不可能代替關(guān)系型數(shù)據(jù)庫。他所作的是關(guān)系型數(shù)據(jù)庫做不了的臟活累活,是原有業(yè)務(wù)架構(gòu)的補充,而不是替換者。

而且這種輔助和替換是逐步完成的,不能一蹴而就,在我所認(rèn)知的范圍內(nèi),沒有任何一家公司上來就說我直接把mysql不用了,直接上Hadoop,碰上這樣的,我首先會贊嘆他的決心,然后我拒絕給他出方案,我會明確告訴他,這樣是不可能的。

Hadoop提供了多種工具給大家做傳統(tǒng)數(shù)據(jù)庫業(yè)務(wù)的對接,除了sqoop,你還可以自己寫,Hadoop接口很簡單的,JDBC接口也很簡單的。

當(dāng)前文章:大數(shù)據(jù)新手入門:給剛玩Hadoop的朋友一些建議
文章轉(zhuǎn)載:http://www.rwnh.cn/article36/scospg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供小程序開發(fā)ChatGPT、商城網(wǎng)站App開發(fā)、自適應(yīng)網(wǎng)站定制開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司
海城市| 调兵山市| 乡宁县| 都昌县| 达州市| 潜江市| 建瓯市| 色达县| 万年县| 伊吾县| 凤凰县| 三台县| 拉孜县| 肥乡县| 青田县| 天峨县| 喀喇沁旗| 玉田县| 威宁| 修水县| 晴隆县| 信阳市| 湟源县| 深州市| 农安县| 沂源县| 肇庆市| 平罗县| 白沙| 南漳县| 天镇县| 岳普湖县| 茶陵县| 都昌县| 满洲里市| 杨浦区| 莫力| 东乡| 青浦区| 南华县| 二连浩特市|