搜索引擎對站長來說并不陌生,但也并不是很熟悉。我們知道搜索引擎可以索引網(wǎng)站、分析網(wǎng)站,給網(wǎng)站一個排名。
成都網(wǎng)站建設(shè)今天跟大家介紹的是搜索引擎的四大系統(tǒng)。
搜索引擎分四個系統(tǒng),分別是下載、分析、索引和檢索系統(tǒng),這些系統(tǒng)都有各自的工作內(nèi)容,少了其中一個,搜索引擎都不能算是完整的。下面我們就分別來看一下這四大系統(tǒng)。
一、下載系統(tǒng)
搜索引擎中的下載系統(tǒng)主要的工作就是下載和存儲互聯(lián)網(wǎng)中的所有網(wǎng)頁,也就是我們經(jīng)常說的蜘蛛,蜘蛛是用來抓取網(wǎng)頁的。也就是說下載系統(tǒng)有下載和存儲兩個主要工作,一般抓取頁面的方式是從一個頁面抓取,收集頁面中的所有鏈接,然后再去訪問這個頁面中的所有鏈接。
二、分析系統(tǒng)
搜索引擎抓取頁面之后并不會收錄所有頁面,我們從服務(wù)器日志可以看出蜘蛛抓取了哪些頁面,但不一定收錄。搜索引擎分析系統(tǒng)的主要工作就是對網(wǎng)站內(nèi)容進(jìn)行檢查,將頁面中的標(biāo)題、正文、鏈接或廣告等內(nèi)容進(jìn)行分析,將重復(fù)或者無效頁面分析出來,幫助搜索引擎收錄內(nèi)容。
三、索引系統(tǒng)
通過下載、存儲和分析系統(tǒng)將網(wǎng)頁抓取之后進(jìn)行過濾,會將有價值的頁面留下,接下來就會對這個頁面進(jìn)行索引、分詞,分析詞語在內(nèi)容中出現(xiàn)的位置、出現(xiàn)的頻率,對頁面內(nèi)容中的標(biāo)題和摘要進(jìn)行記錄。我們常用的site指令就可以查詢到網(wǎng)站收錄的所有內(nèi)容,收錄一篇內(nèi)容就增加一條索引項,顯示的快照就是建立索引的時間,而快照更新就是蜘蛛再次訪問抓取后的頁面時對其進(jìn)行重新索引,因此頁面快照就更新了。
四、檢索系統(tǒng)
這個系統(tǒng)和用戶有非常大的關(guān)系,這個系統(tǒng)和用戶可以建立聯(lián)系。用戶在瀏覽器中輸入搜索詞,搜索引擎就要對搜索詞進(jìn)行分詞,得出索引詞,再到索引庫中進(jìn)行匹配,最后就是搜索結(jié)果。根據(jù)頁面綜合權(quán)重和搜索詞吻合度進(jìn)行排序,這就是我們所說的排名。
分享標(biāo)題:搜索引擎有哪四大系統(tǒng)
地址分享:http://www.rwnh.cn/news/58002.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供建站公司、網(wǎng)站收錄、標(biāo)簽優(yōu)化、網(wǎng)站營銷、用戶體驗、ChatGPT
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源:
創(chuàng)新互聯(lián)