2022-07-16 分類: 網(wǎng)站建設(shè)
成都網(wǎng)站建設(shè)--創(chuàng)新互聯(lián)小編說說 什么是文件匹配?
搜索詞經(jīng)過處理后,搜索引擎得到的是以詞為基礎(chǔ)的關(guān)鍵詞集合。文件匹配階段就是找出含有所有搜索關(guān)鍵詞的所有文件。在索引部分提到的倒排索引使得文件匹配能夠快速完成,成都網(wǎng)站建設(shè)--創(chuàng)新互聯(lián)小編放一張圖給大家看看:
成都網(wǎng)站建設(shè)--創(chuàng)新互聯(lián)小編假設(shè)用戶搜索“關(guān)鍵詞2”和“關(guān)鍵詞7”,排名程序只要在倒排索引中找到“關(guān)鍵詞2”和“關(guān)鍵詞7”這兩個詞,就能找到分別含有這兩個詞的所有頁面。經(jīng)過簡單求交集計算就能找出既包含”關(guān)鍵詞2”和“關(guān)鍵詞7”的所有頁面:文件1和文件6。
初始集結(jié)的選擇:找到所有關(guān)鍵詞的匹配文件后,還不能進(jìn)行相關(guān)性計算,需要的時間還是太長。實際上用戶并不需要知道所有匹配的幾十萬,幾百萬個頁面,絕大部分用戶只會查看前兩頁,也就是前20個結(jié)果。搜索引擎也并不需要計算這么多頁面的相關(guān)性,而只要計算最重要的一部分頁面就可以了。常用搜索引擎的人都會注意到,搜索結(jié)果頁面通常最多顯示100個。用戶點擊搜索結(jié)果頁面底部“下一頁”鏈接,最多也只能看到第100頁,也就是1000個搜索結(jié)果,成都網(wǎng)站建設(shè)--創(chuàng)新互聯(lián)小編發(fā)張下圖。
百度則通常返回76頁結(jié)果,成都網(wǎng)站建設(shè)--創(chuàng)新互聯(lián)小編發(fā)張下圖。360搜索通常犯諱頁結(jié)果,必應(yīng)貌似冒雨固定頁數(shù),會根據(jù)不同查詢詞而變化,但也不會超過100頁。
總之,最多顯示1000個搜索結(jié)果,所以搜索引擎又怎么知道哪1000個文件是最相關(guān)的?所以用于最后相關(guān)性計算的初始頁面子集的選擇,必須依靠其他特珍而不是相關(guān)性(這些文件都包含所有查詢關(guān)鍵詞),搜索引擎通常會用非相關(guān)性的頁面特征選出一個初始子集。初始子集的數(shù)目是多少?幾萬個?或許更多,外人并不知道。不過可以肯定的是,當(dāng)匹配頁面數(shù)目巨大時,搜索引擎不會對這么多頁面進(jìn)行實時計算,而必須選出一個頁面權(quán)重較高的一個子集,再對子集的頁面進(jìn)行相關(guān)性計算。
分享文章:什么是文件匹配?
轉(zhuǎn)載來源:http://www.rwnh.cn/news40/179940.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供標(biāo)簽優(yōu)化、手機網(wǎng)站建設(shè)、網(wǎng)站制作、小程序開發(fā)、網(wǎng)站維護(hù)、全網(wǎng)營銷推廣
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容