内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

一次Hadoop開發(fā)思路分享-創(chuàng)新互聯(lián)

困擾了自己1周的一個問題終于得到解決了,感謝給我?guī)椭耐瑢W(xué),同時記錄下來分享給大家.

成都創(chuàng)新互聯(lián)長期為成百上千家客戶提供的網(wǎng)站建設(shè)服務(wù),團隊從業(yè)經(jīng)驗10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為興寧企業(yè)提供專業(yè)的網(wǎng)站設(shè)計制作、成都網(wǎng)站制作,興寧網(wǎng)站改版等技術(shù)服務(wù)。擁有10余年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。

問題簡化描述:

  • HDFS存在這樣格式的文件:用戶ID    主題ID    用戶對此主題的偏好分數(shù)score。

  • 現(xiàn)在要求實現(xiàn)對給定的幾個主題T1,T2,T3,...TN,每個主題要求篩選出指定數(shù)量的用戶ID是M1,M2,M3,...MX。

  • 希望盡可能根據(jù)score來選出偏好的用戶ID,并且主題之間的用戶ID不可以重復(fù)。

  • 另外HDFS上distinct的用戶ID數(shù)量是大于等于M1+M2+M3+...+MX的。

思路分析:

問題有幾個關(guān)鍵點,第一,不重復(fù),第二,數(shù)量上要滿足,第三,偏好分數(shù)score。

如何保證,主題之間的用戶不重復(fù)呢?

其實就是完成,一個用戶只能屬于一個主題的過程,當然,我們可以很簡單的對一個用戶下的所有偏好分數(shù)進行排序,取出最偏好的主題。

雖然這樣避免了重復(fù)的問題,可是問題來了,如果偏好主題T1要求的數(shù)量是100W,而僅僅只有90W的用戶ID對T1最偏好,這該如何補數(shù)呢?又如何通過程序來自動化的實現(xiàn)這個過程呢?越想越復(fù)雜!

這個問題好像有點類似于高考填自愿的問題,我們每一個人會填寫幾個志愿,但是我們終究只會被一個院校錄取,這是怎么做到的呢?是否可以從中借鑒呢?

首先,我們根據(jù)HDFS的內(nèi)容,寫一個MapReduce完成一次計算,形成下面的用戶志愿HDFS內(nèi)容:

用戶ID  主題ID-A:score1;主題ID-B:score2;...

很簡單,希望得到一個用戶ID下面按照score desc排序的主題列表,上面一行其實就是說:

用戶ID的第一志愿是主題A,第二志愿是主題B...。

------------------------------------------

接下來,形成下面的一個列表list信息:

主題A  count-A

主題B  count-B

主題C  count-C

...

按照主題需要的用戶ID的數(shù)量進行ASC排序。

------------------------------------------

下面,我們就來看如何進行主題選擇用戶的過程:

我們首先選擇對數(shù)量要求最少的主題A完成下面的MapReduce計算:

一次Hadoop開發(fā)思路分享

這樣,我們就完成了主題A的用戶篩選問題。

接下來,我們?nèi)〕鰈ist中數(shù)量要求比A多一點的主題B,那么它怎么取用戶呢?

很簡單,我們只需要在MAP處理階段,傳遞主題A生成的結(jié)果HDFS路徑(路徑下面的文件內(nèi)容當然是主題A的用戶)用于reduce階段取用戶時進行過濾。

那么,主題C又如何取用戶呢?

類似的,只需要給MAP多傳遞主題A,主題B已經(jīng)占用的用戶信息用于過濾,其他處理操作不變!

其實,我們可以發(fā)現(xiàn),上面的MapReduce其實可以是一個通用的程序,類似于COMMAND:

hadoop jar XXX.jar 主題ID 數(shù)量  [input1,input2,input3,...] 用戶志愿HDFS路徑 輸出路徑

其中input1,input2,input3,...是可選的,其實就是用于用戶過濾的。

最后,我們可以寫一個Shell腳本,根據(jù)list的內(nèi)容來進行重復(fù)調(diào)用上面的COMMAND,通過傳遞不同的參數(shù)信息達到目的,這樣我們就可以自動化實現(xiàn)上面的要求了!

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)站題目:一次Hadoop開發(fā)思路分享-創(chuàng)新互聯(lián)
當前網(wǎng)址:http://www.rwnh.cn/article44/dcojhe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、企業(yè)網(wǎng)站制作、網(wǎng)站維護、App開發(fā)、自適應(yīng)網(wǎng)站、響應(yīng)式網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)
昌平区| 额敏县| 嵩明县| 汶上县| 胶州市| 卫辉市| 富蕴县| 长沙市| 泰州市| 张家川| 广宗县| 独山县| 东乌珠穆沁旗| 达州市| 察隅县| 徐水县| 宜宾市| 龙江县| 南华县| 泗水县| 霍邱县| 石林| 昌图县| 扎囊县| 清河县| 武山县| 元朗区| 会宁县| 北票市| 营山县| 肇东市| 类乌齐县| 西乡县| 江川县| 南宁市| 香格里拉县| 凤山县| 涞源县| 沾益县| 西和县| 固镇县|