2022-07-28 分類: 網(wǎng)站建設(shè)
成都網(wǎng)站設(shè)計--創(chuàng)新互聯(lián)小編來首先說/
去停止詞:無論是英文還是中文,頁面內(nèi)容都會出現(xiàn)一些頻率很高,卻對內(nèi)容沒有影響的詞,如“的“, “地“,”得“之類的助詞,”啊“,”哈“,”呀“之類的感嘆詞,”從而“,”以“,”卻“之類的副詞和介詞。這些詞被稱為停止詞,因為它們對頁面的主要意思沒什么影響。英文中的常見停止詞有the,a,an,to,of等。搜索引擎在索引頁面之前會去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無畏的計算量。成都網(wǎng)站設(shè)計--創(chuàng)新互聯(lián)小編說第2點/來
消除噪音:絕大部分頁面上還有一部分內(nèi)容對頁面主題也沒有什么貢獻,比如版權(quán)聲明文字,導(dǎo)航條,廣告等。以常見的博客導(dǎo)航為例,幾乎每個博客頁面上都會出現(xiàn)文章分類,歷史存檔等導(dǎo)航內(nèi)容,但是這些頁面本身與“分類”,“歷史”這些詞都沒有任何關(guān)系。用戶搜索“歷史:,”分類“這些關(guān)鍵詞時僅僅是因為頁面上有這些關(guān)鍵詞出現(xiàn)而返回博客帖子是豪無意義的,完全不相關(guān)。所以這些區(qū)塊都是屬于噪聲,對頁面主題只能起到分散作用。
搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內(nèi)容。消除的基本方法是根據(jù)html標簽對頁面分塊,區(qū)分出頁頭,導(dǎo)航,正文,頁腳,廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主題內(nèi)容。成都網(wǎng)站設(shè)計--創(chuàng)新互聯(lián)小編說第3點
去重:搜索引擎還需要對頁面進行去重處理。同一篇文章經(jīng)常會出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站上的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時,如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗就太差了,雖然都是內(nèi)容相關(guān)的。搜索引擎只希望返回相同頁面文章中的一篇,所以在進行搜索前還需要識別和刪除重復(fù)內(nèi)容,這個過程就成為”去重“。”去重“的基本方法是對頁面特定的關(guān)鍵詞計算指紋,也就是從頁面主體中選取最具有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率高的關(guān)鍵詞),然后計算出這些關(guān)鍵詞的指紋。這里的關(guān)鍵詞選取是在分詞,去停止詞,消噪之后。實驗表明,通常選取10個特征關(guān)鍵詞就可以達到比較高的計算準確性,再選取更多詞對去重準確性提高也就大了。
典型的指紋計算方法如md5算法(信息摘要算法第5版)。這類指紋算法的特點是,輸入(特征關(guān)鍵詞及其順序)有任何微小的變化,都會導(dǎo)致計算出的指紋有很大的差距。了解搜索引擎的計算方法,seo人員就應(yīng)該知道簡單的增加“的”,“地”,“得”,調(diào)換段落順序這種的偽原創(chuàng),并不能逃過搜索引擎的去重算法,因為這樣的操作無法改變文章的特征關(guān)鍵詞,也就無法改變指紋。而且,搜索引擎的算法很可能不止頁面的級別,而是進行到段落級別,混合不同文章。交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲不能變成原創(chuàng)。和大家分享完這篇文章,成都網(wǎng)站設(shè)計
--創(chuàng)新互聯(lián)小編自己對優(yōu)化都思路清晰不少。
當前題目:(seo)去停止詞 消除噪音 去重
文章轉(zhuǎn)載:http://www.rwnh.cn/news19/183069.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機網(wǎng)站建設(shè)、服務(wù)器托管、移動網(wǎng)站建設(shè)、Google、定制開發(fā)、外貿(mào)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容