百度搜索引擎的相關(guān)工作原理做一下小結(jié):
成都創(chuàng)新互聯(lián)10多年企業(yè)網(wǎng)站制作服務(wù);為您提供網(wǎng)站建設(shè),網(wǎng)站制作,網(wǎng)頁(yè)設(shè)計(jì)及高端網(wǎng)站定制服務(wù),企業(yè)網(wǎng)站制作及推廣,對(duì)成都辦公窗簾等多個(gè)領(lǐng)域擁有豐富的網(wǎng)站營(yíng)銷(xiāo)經(jīng)驗(yàn)的網(wǎng)站建設(shè)公司。
搜索引擎就是通過(guò)一種簡(jiǎn)單的搜索,通過(guò)這種搜索能夠查找到自己所需要的信息,像一些知名的所搜引擎主要有百度、谷歌、360、soso、必應(yīng)、雅虎等等。
搜索引擎的抓取收錄原理流程:抓取->過(guò)濾->存儲(chǔ)索引庫(kù)->展示排序
第一步:搜索引擎爬取。蜘蛛都是通過(guò)來(lái)爬取網(wǎng)站頁(yè)面里的超文本鏈接來(lái)順藤摸瓜的,同時(shí)將所搜取得頁(yè)面信息放到緩存里面。
1.爬取方式:深度抓取、深度抓取。
深度抓取是指先抓取完一個(gè)欄目的內(nèi)容頁(yè),然再換個(gè)欄目以同樣的方式抓取。
廣度抓取也稱之為橫著抓取,它是指先抓取完每個(gè)欄目也,再抓取每個(gè)欄目頁(yè)下面的內(nèi)容頁(yè)。
2.蜘蛛很難識(shí)別的內(nèi)容
蜘蛛雖然很強(qiáng)大,但是由于受到技術(shù)的限制,并不是所有的信息都能夠識(shí)別過(guò)來(lái),像Javascript代碼,iframe框架代碼機(jī)構(gòu),圖片,flash(視頻前后加文字輔助搜索引擎識(shí)別),需要登錄之后才能獲取的頁(yè)面信息,嵌套table等都很難識(shí)別,所以這時(shí)候你應(yīng)該注意哪些問(wèn)題,例如js代碼應(yīng)該放在頁(yè)面底部,圖片借助于alt、title屬性輔助識(shí)別等等技巧。
第二步:過(guò)濾工作
并不是所抓取到的信息都是有用的,也并不是所有的信息都將保存在數(shù)據(jù)庫(kù)中,搜索引擎需要進(jìn)行相關(guān)的過(guò)濾工作,將會(huì)把那些低俗,沒(méi)有價(jià)值質(zhì)量,通過(guò)一些列采集,內(nèi)容質(zhì)量不豐富等信息過(guò)濾掉,展現(xiàn)在用戶面前的都將是存在一定價(jià)值的內(nèi)容。
第三步:建立索引緩存數(shù)據(jù)庫(kù)
蜘蛛抓取過(guò)來(lái)的頁(yè)面內(nèi)容并不會(huì)立馬存儲(chǔ)到自身的數(shù)據(jù)庫(kù)中,而是建立一個(gè)臨時(shí)的索引數(shù)據(jù)庫(kù),經(jīng)過(guò)相關(guān)的操作在進(jìn)行一定的判斷。
第四步:搜索引擎展示排名排序
由于搜索引擎進(jìn)入到用戶點(diǎn)擊時(shí)代,搜索引擎會(huì)把索引數(shù)據(jù)庫(kù)里面的信息的決定權(quán)交給用戶,讓用戶
來(lái)決定那個(gè)質(zhì)量的高低,這樣然后再把那些索引數(shù)據(jù)庫(kù)里面的內(nèi)容展現(xiàn)出來(lái),同時(shí)也把這些信息轉(zhuǎn)化存儲(chǔ)到自身真正的數(shù)據(jù)庫(kù)中。所以再有了我們?cè)谒阉饕嫠褞椎慕Y(jié)果,搜索根據(jù)各種算法進(jìn)行排序,將質(zhì)量最好的十個(gè)結(jié)果放在第一頁(yè),這就是整個(gè)搜索引擎的大致工作原理,雖然不同的搜索原理有所差距,但是核心是一樣的。
當(dāng)前文章:搜索引擎的工作原理
標(biāo)題來(lái)源:http://www.rwnh.cn/article47/dghihhj.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)、App設(shè)計(jì)、商城網(wǎng)站、云服務(wù)器、Google、定制開(kāi)發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)