【威海seo】在網(wǎng)站中的用戶標(biāo)簽有什么作用？

在網(wǎng)站中的推薦系統(tǒng)有兩大基石他們分別是用戶標(biāo)簽和內(nèi)容分析。在內(nèi)容分析中會涉及到一些有關(guān)機(jī)器學(xué)習(xí)的方面，兩者相較而言，用戶標(biāo)簽這一項(xiàng)目的難度更大。

在今日頭條的網(wǎng)站中我們常用到的用戶標(biāo)簽主要有用戶比較想知道的主題亦或是極為重要的關(guān)鍵詞等等。對于用戶的性別信息我們可以從第三方社交賬號中得到。而用戶的年齡信息主要是從模型中預(yù)測，主要是根據(jù)用戶閱讀的時間和機(jī)型來預(yù)測。經(jīng)常訪問的地點(diǎn)主要是由用戶自己授權(quán)網(wǎng)站訪問得到的

當(dāng)然在網(wǎng)站中最簡單最基礎(chǔ)的用戶標(biāo)簽就是用戶瀏覽過后的內(nèi)容標(biāo)簽。主要分為三個方面：第一方面就是能夠過濾噪音，網(wǎng)站通過用戶停留的時間的長短來過濾標(biāo)題黨。第二方面就是熱點(diǎn)懲罰，對于網(wǎng)站中一些極受用戶歡迎的文章，用戶會在上面留言，但不乏一些不好的留言，而這樣就會遭到懲罰。譬如降權(quán)處理等等。第三方面就是時間衰減，隨著年齡的增長，用戶的興趣也會發(fā)生一些改變，所以網(wǎng)站的策略就更偏向于新的用戶。現(xiàn)在隨著用戶動作的增加時間久的一些權(quán)重影響力就會降低。第四方面就是懲罰展現(xiàn)，如果有那么一篇文章是推薦給用戶的但卻沒有人點(diǎn)擊，那么與之相關(guān)的權(quán)重就會遭受懲罰。

要知道用戶標(biāo)簽找出的大都是一些簡單的關(guān)鍵詞，例如今日頭條它的用戶標(biāo)簽第一版就是批量計(jì)算框架，在這個系統(tǒng)中它的流程相較其他而言就更簡單些。

但問題在于，隨著用戶高速增長，興趣模型種類和其他批量處理任務(wù)都在增加，涉及到的計(jì)算量太大。2014年，批量處理任務(wù)幾百萬用戶標(biāo)簽更新的Hadoop任務(wù)，當(dāng)天完成已經(jīng)開始勉強(qiáng)。集群計(jì)算資源緊張很容易影響其它工作，集中寫入分布式存儲系統(tǒng)的壓力也開始增大，并且用戶興趣標(biāo)簽更新延遲越來越高。

面對這些挑戰(zhàn)。2014年底今日頭條上線了用戶標(biāo)簽Storm集群流式計(jì)算系統(tǒng)。改成流式之后，只要有用戶動作更新就更新標(biāo)簽，CPU代價比較小，可以節(jié)省80%的CPU時間，大大降低了計(jì)算資源開銷。同時，只需幾十臺機(jī)器就可以支撐每天數(shù)千萬用戶的興趣模型更新，并且特征更新速度非?？欤究梢宰龅綔?zhǔn)實(shí)時。這套系統(tǒng)從上線一直使用至今。

當(dāng)然，我們也發(fā)現(xiàn)并非所有用戶標(biāo)簽都需要流式系統(tǒng)。像用戶的性別、年齡、常駐地點(diǎn)這些信息，不需要實(shí)時重復(fù)計(jì)算，就仍然保留daily更新。

四、評估分析

上面介紹了推薦系統(tǒng)的整體架構(gòu)，那么如何評估推薦效果好不好?

有一句我認(rèn)為非常有智慧的話，“一個事情沒法評估就沒法優(yōu)化”。對推薦系統(tǒng)也是一樣。

事實(shí)上，很多因素都會影響推薦效果。比如侯選集合變化，召回模塊的改進(jìn)或增加，推薦特征的增加，模型架構(gòu)的改進(jìn)在，算法參數(shù)的優(yōu)化等等，不一一舉例。評估的意義就在于，很多優(yōu)化最終可能是負(fù)向效果，并不是優(yōu)化上線后效果就會改進(jìn)。

全面的評估推薦系統(tǒng)，需要完備的評估體系、強(qiáng)大的實(shí)驗(yàn)平臺以及易用的經(jīng)驗(yàn)分析工具。所謂完備的體系就是并非單一指標(biāo)衡量，不能只看點(diǎn)擊率或者停留時長等，需要綜合評估。過去幾年我們一直在嘗試，能不能綜合盡可能多的指標(biāo)合成唯一的評估指標(biāo)，但仍在探索中。目前，我們上線還是要由各業(yè)務(wù)比較資深的同學(xué)組成評審委員會深入討論后決定。

很多公司算法做的不好，并非是工程師能力不夠，而是需要一個強(qiáng)大的實(shí)驗(yàn)平臺，還有便捷的實(shí)驗(yàn)分析工具，可以智能分析數(shù)據(jù)指標(biāo)的置信度。

一個良好的評估體系建立需要遵循幾個原則，首先是兼顧短期指標(biāo)與長期指標(biāo)。我在之前公司負(fù)責(zé)電商方向的時候觀察到，很多策略調(diào)整短期內(nèi)用戶覺得新鮮，但是長期看其實(shí)沒有任何助益。

其次，要兼顧用戶指標(biāo)和生態(tài)指標(biāo)。今日頭條作為內(nèi)容分創(chuàng)作平臺，既要為內(nèi)容創(chuàng)作者提供價值，讓他更有尊嚴(yán)的創(chuàng)作，也有義務(wù)滿足用戶，這兩者要平衡。還有廣告主利益也要考慮，這是多方博弈和平衡的過程。

另外，要注意協(xié)同效應(yīng)的影響。實(shí)驗(yàn)中嚴(yán)格的流量隔離很難做到，要注意外部效應(yīng)。

強(qiáng)大的實(shí)驗(yàn)平臺非常直接的優(yōu)點(diǎn)是，當(dāng)同時在線的實(shí)驗(yàn)比較多時，可以由平臺自動分配流量，無需人工溝通，并且實(shí)驗(yàn)結(jié)束流量立即回收，提高管理效率。這能幫助公司降低分析成本，加快算法迭代效應(yīng)，使整個系統(tǒng)的算法優(yōu)化工作能夠快速往前推進(jìn)。

這是頭條A/BTest實(shí)驗(yàn)系統(tǒng)的基本原理。首先我們會做在離線狀態(tài)下做好用戶分桶，然后線上分配實(shí)驗(yàn)流量，將桶里用戶打上標(biāo)簽，分給實(shí)驗(yàn)組。舉個例子，開一個10%流量的實(shí)驗(yàn)，兩個實(shí)驗(yàn)組各5%，一個5%是基線，策略和線上大盤一樣，另外一個是新的策略。

實(shí)驗(yàn)過程中用戶動作會被搜集，基本上是準(zhǔn)實(shí)時，每小時都可以看到。但因?yàn)樾r數(shù)據(jù)有波動，通常是以天為時間節(jié)點(diǎn)來看。動作搜集后會有日志處理、分布式統(tǒng)計(jì)、寫入數(shù)據(jù)庫，非常便捷。

在這個系統(tǒng)下工程師只需要設(shè)置流量需求、實(shí)驗(yàn)時間、定義特殊過濾條件，自定義實(shí)驗(yàn)組ID。系統(tǒng)可以自動生成：實(shí)驗(yàn)數(shù)據(jù)對比、實(shí)驗(yàn)數(shù)據(jù)置信度、實(shí)驗(yàn)結(jié)論總結(jié)以及實(shí)驗(yàn)優(yōu)化建議。

當(dāng)然，只有實(shí)驗(yàn)平臺是遠(yuǎn)遠(yuǎn)不夠的。線上實(shí)驗(yàn)平臺只能通過數(shù)據(jù)指標(biāo)變化推測用戶體驗(yàn)的變化，但數(shù)據(jù)指標(biāo)和用戶體驗(yàn)存在差異，很多指標(biāo)不能完全量化。很多改進(jìn)仍然要通過人工分析，重大改進(jìn)需要人工評估二次確認(rèn)。

五、內(nèi)容安全

最后要介紹今日頭條在內(nèi)容安全上的一些舉措。頭條現(xiàn)在已經(jīng)是國內(nèi)最大的內(nèi)容創(chuàng)作與分發(fā)憑條，必須越來越重視社會責(zé)任和行業(yè)領(lǐng)導(dǎo)者的責(zé)任。如果1%的推薦內(nèi)容出現(xiàn)問題，就會產(chǎn)生較大的影響。

因此頭條從創(chuàng)立伊始就把內(nèi)容安全放在公司最高優(yōu)先級隊(duì)列。成立之初，已經(jīng)專門設(shè)有審核團(tuán)隊(duì)負(fù)責(zé)內(nèi)容安全。當(dāng)時研發(fā)所有客戶端、后端、算法的同學(xué)一共才不到40人，頭條非常重視內(nèi)容審核。

現(xiàn)在，今日頭條的內(nèi)容主要來源于兩部分，一是具有成熟內(nèi)容生產(chǎn)能力的PGC平臺

一是UGC用戶內(nèi)容，如問答、用戶評論、微頭條。這兩部分內(nèi)容需要通過統(tǒng)一的審核機(jī)制。如果是數(shù)量相對少的PGC內(nèi)容，會直接進(jìn)行風(fēng)險審核，沒有問題會大范圍推薦。UGC內(nèi)容需要經(jīng)過一個風(fēng)險模型的過濾，有問題的會進(jìn)入二次風(fēng)險審核。審核通過后，內(nèi)容會被真正進(jìn)行推薦。這時如果收到一定量以上的評論或者舉報負(fù)向反饋，還會再回到復(fù)審環(huán)節(jié)，有問題直接下架。整個機(jī)制相對而言比較健全，作為行業(yè)領(lǐng)先者，在內(nèi)容安全上，今日頭條一直用最高的標(biāo)準(zhǔn)要求自己。

分享內(nèi)容識別技術(shù)主要鑒黃模型，謾罵模型以及低俗模型。今日頭條的低俗模型通過深度學(xué)習(xí)算法訓(xùn)練，樣本庫非常大，圖片、文本同時分析。這部分模型更注重召回率，準(zhǔn)確率甚至可以犧牲一些。謾罵模型的樣本庫同樣超過百萬，召回率高達(dá)95%+，準(zhǔn)確率80%+。如果用戶經(jīng)常出言不諱或者不當(dāng)?shù)脑u論，我們有一些懲罰機(jī)制。

泛低質(zhì)識別涉及的情況非常多，像假新聞、黑稿、題文不符、標(biāo)題黨、內(nèi)容質(zhì)量低等等，這部分內(nèi)容由機(jī)器理解是非常難的，需要大量反饋信息，包括其他樣本信息比對。目前低質(zhì)模型的準(zhǔn)確率和召回率都不是特別高，還需要結(jié)合人工復(fù)審，將閾值提高。目前最終的召回已達(dá)到95%，這部分其實(shí)還有非常多的工作可以做。頭條人工智能實(shí)驗(yàn)室李航老師目前也在和密歇根大學(xué)共建科研項(xiàng)目，設(shè)立謠言識別平臺。

網(wǎng)頁標(biāo)題：【威海seo】在網(wǎng)站中的用戶標(biāo)簽有什么作用？
文章源于：http://www.rwnh.cn/article48/dghighp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供手機(jī)網(wǎng)站建設(shè)、定制網(wǎng)站、外貿(mào)網(wǎng)站建設(shè)、網(wǎng)站營銷、品牌網(wǎng)站建設(shè)、微信小程序

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

【威海seo】在網(wǎng)站中的用戶標(biāo)簽有什么作用？

【威海seo】在網(wǎng)站中的用戶標(biāo)簽有什么作用？