困擾了自己1周的一個問題終于得到解決了,感謝給我?guī)椭耐瑢W(xué),同時記錄下來分享給大家.
問題簡化描述:
HDFS存在這樣格式的文件:用戶ID 主題ID 用戶對此主題的偏好分數(shù)score。
現(xiàn)在要求實現(xiàn)對給定的幾個主題T1,T2,T3,...TN,每個主題要求篩選出指定數(shù)量的用戶ID是M1,M2,M3,...MX。
希望盡可能根據(jù)score來選出偏好的用戶ID,并且主題之間的用戶ID不可以重復(fù)。
另外HDFS上distinct的用戶ID數(shù)量是大于等于M1+M2+M3+...+MX的。
思路分析:
問題有幾個關(guān)鍵點,第一,不重復(fù),第二,數(shù)量上要滿足,第三,偏好分數(shù)score。
如何保證,主題之間的用戶不重復(fù)呢?
其實就是完成,一個用戶只能屬于一個主題的過程,當然,我們可以很簡單的對一個用戶下的所有偏好分數(shù)進行排序,取出最偏好的主題。
雖然這樣避免了重復(fù)的問題,可是問題來了,如果偏好主題T1要求的數(shù)量是100W,而僅僅只有90W的用戶ID對T1最偏好,這該如何補數(shù)呢?又如何通過程序來自動化的實現(xiàn)這個過程呢?越想越復(fù)雜!
這個問題好像有點類似于高考填自愿的問題,我們每一個人會填寫幾個志愿,但是我們終究只會被一個院校錄取,這是怎么做到的呢?是否可以從中借鑒呢?
首先,我們根據(jù)HDFS的內(nèi)容,寫一個MapReduce完成一次計算,形成下面的用戶志愿HDFS內(nèi)容:
用戶ID 主題ID-A:score1;主題ID-B:score2;...
很簡單,希望得到一個用戶ID下面按照score desc排序的主題列表,上面一行其實就是說:
用戶ID的第一志愿是主題A,第二志愿是主題B...。
------------------------------------------
接下來,形成下面的一個列表list信息:
主題A count-A
主題B count-B
主題C count-C
...
按照主題需要的用戶ID的數(shù)量進行ASC排序。
------------------------------------------
下面,我們就來看如何進行主題選擇用戶的過程:
我們首先選擇對數(shù)量要求最少的主題A完成下面的MapReduce計算:
這樣,我們就完成了主題A的用戶篩選問題。
接下來,我們?nèi)〕鰈ist中數(shù)量要求比A多一點的主題B,那么它怎么取用戶呢?
很簡單,我們只需要在MAP處理階段,傳遞主題A生成的結(jié)果HDFS路徑(路徑下面的文件內(nèi)容當然是主題A的用戶)用于reduce階段取用戶時進行過濾。
那么,主題C又如何取用戶呢?
類似的,只需要給MAP多傳遞主題A,主題B已經(jīng)占用的用戶信息用于過濾,其他處理操作不變!
其實,我們可以發(fā)現(xiàn),上面的MapReduce其實可以是一個通用的程序,類似于COMMAND:
hadoop jar XXX.jar 主題ID 數(shù)量 [input1,input2,input3,...] 用戶志愿HDFS路徑 輸出路徑
其中input1,input2,input3,...是可選的,其實就是用于用戶過濾的。
最后,我們可以寫一個Shell腳本,根據(jù)list的內(nèi)容來進行重復(fù)調(diào)用上面的COMMAND,通過傳遞不同的參數(shù)信息達到目的,這樣我們就可以自動化實現(xiàn)上面的要求了!
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
網(wǎng)站題目:一次Hadoop開發(fā)思路分享-創(chuàng)新互聯(lián)
當前網(wǎng)址:http://www.rwnh.cn/article44/dcojhe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、企業(yè)網(wǎng)站制作、網(wǎng)站維護、App開發(fā)、自適應(yīng)網(wǎng)站、響應(yīng)式網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)