這篇文章主要介紹“自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡(jiǎn)單用法”,在日常操作中,相信很多人在自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡(jiǎn)單用法問(wèn)題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡(jiǎn)單用法”的疑惑有所幫助!接下來(lái),請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧!
這篇文章主要介紹“自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡(jiǎn)單用法”,在日常操作中,相信很多人在自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡(jiǎn)單用法問(wèn)題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡(jiǎn)單用法”的疑惑有所幫助!接下來(lái),請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧!
創(chuàng)新互聯(lián)主營(yíng)高陽(yáng)網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營(yíng)網(wǎng)站建設(shè)方案,重慶APP開發(fā)公司,高陽(yáng)h5小程序制作搭建,高陽(yáng)網(wǎng)站營(yíng)銷推廣歡迎高陽(yáng)等地區(qū)企業(yè)咨詢
在本章的前半部分,我們研究了兩種可以將半結(jié)構(gòu)化和二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為HDFS的機(jī)制:開源HDFS File Slurper項(xiàng)目和Oozie,它們觸發(fā)了數(shù)據(jù)入口工作流程。使用本地文件系統(tǒng)進(jìn)行輸入(以及輸出)的挑戰(zhàn)是,在集群上運(yùn)行的map和reduce任務(wù)將無(wú)法訪問(wèn)特定上的文件系統(tǒng),將數(shù)據(jù)從HDFS移動(dòng)到文件系統(tǒng)有三個(gè)廣泛的選擇:
在服務(wù)器(例如Web服務(wù)器)上托管agent,然后使用MapReduce將其寫入。
在MapReduce中寫入本地文件系統(tǒng),然后在后處理步驟中觸發(fā)遠(yuǎn)程服務(wù)器上的腳本以移動(dòng)該數(shù)據(jù)。
在遠(yuǎn)程服務(wù)器上運(yùn)行進(jìn)程以直接從HDFS提取數(shù)據(jù)。
第三種選擇是首選方法,因?yàn)樽詈?jiǎn)單且最有效,因此這是本節(jié)的重點(diǎn)。我們將了解如何使用HDFS File Slurper自動(dòng)將文件從HDFS移出到本地文件系統(tǒng)。
從HDFS導(dǎo)出文件的自動(dòng)機(jī)制
假設(shè)有MapReduce用HDFS編寫的文件,你想要將它們自動(dòng)提取到本地文件系統(tǒng)。任何Hadoop工具都不支持此類功能,因此必須查看其他方法。
問(wèn)題
自動(dòng)將文件從HDFS移動(dòng)到本地文件系統(tǒng)。
解決方案
HDFS文件Slurper可用于將文件從HDFS復(fù)制到本地文件系統(tǒng)。
討論
這里的目標(biāo)是使用HDFS File Slurper項(xiàng)目(https://github.com/alexholmes/ hdfs-file-slurper)來(lái)協(xié)助自動(dòng)化。我們?cè)谇拔脑敿?xì)介紹了HDFS File Slurper,請(qǐng)?jiān)诶^續(xù)使用此技術(shù)之前閱讀該部分。
HDFS Slurper支持將數(shù)據(jù)從HDFS移動(dòng)到本地目錄,我們需要做的就是翻轉(zhuǎn)源目錄和目標(biāo)目錄,如Slurper配置文件以下所示:
你會(huì)注意到,HDFS中不僅有源目錄,而且還有工作,完成和錯(cuò)誤目錄。這是因?yàn)樾枰軌蛟谀夸浿g自動(dòng)移動(dòng)文件,而不會(huì)產(chǎn)生跨文件系統(tǒng)復(fù)制的昂貴開銷。
總結(jié)
此時(shí),你可能想知道如何觸發(fā)Slurper來(lái)復(fù)制剛剛使用MapReduce作業(yè)編寫的目錄。當(dāng)MapReduce作業(yè)成功完成時(shí),它會(huì)在作業(yè)輸出目錄中創(chuàng)建一個(gè)名為_SUCCESS的文件。這似乎是啟動(dòng)輸出進(jìn)程將該內(nèi)容復(fù)制到本地文件系統(tǒng)的完美觸發(fā)器。事實(shí)證明,Oozie有一種機(jī)制可以在檢測(cè)到這些Hadoop文件“成功”時(shí)觸發(fā)工作流程,但這里的挑戰(zhàn)是Oozie執(zhí)行的任何工作都是在MapReduce中執(zhí)行的,所以它不能用于執(zhí)行直接轉(zhuǎn)移??梢跃帉懽约旱哪_本,輪詢HDFS以查找已完成的目錄,然后觸發(fā)文件復(fù)制過(guò)程。如果源文件需要保持不變,那么文件復(fù)制過(guò)程可以是Slurper或簡(jiǎn)單的hadoop fs -get命令。
當(dāng)前題目:自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡(jiǎn)單用法
標(biāo)題來(lái)源:http://www.rwnh.cn/article32/dcddpc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、定制網(wǎng)站、電子商務(wù)、面包屑導(dǎo)航、ChatGPT、虛擬主機(jī)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容