2022-11-18 分類: 網(wǎng)站建設
各搜索引擎蜘蛛介紹,搜索引擎蜘蛛爬取網(wǎng)站,抓取數(shù)據(jù)的規(guī)則
1、百度蜘蛛:BaiduSpider
常見的Baiduspider和Baiduspider-image(抓取圖片)
百度公司還有其它幾個蜘蛛:Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)、Baiduspider-mobile(抓取wap),都不常見
百度蜘蛛爬蟲UA:
PC端:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
移動端:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
圖片:“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”
2、谷歌蜘蛛:Googlebot
有人說谷歌蜘蛛是GoogleBot,官方谷歌蜘蛛最新名稱為Googlebot,還發(fā)現(xiàn)了Googlebot-Mobile,看名字是應該是抓取wap內容的
谷歌蜘蛛爬蟲UA:“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
3、360蜘蛛:360Spider
它是一個十分“勤奮抓爬”的蜘蛛
360蜘蛛爬蟲UA:
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);
4、搜狗蜘蛛:Sogou News Spider
搜狗公司還有其它幾個蜘蛛:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider,冬鏡在日志中只發(fā)現(xiàn)了常見的Sogou News Spider。(參考大神百度的robots文件,搜狗蜘蛛名稱可以用Sogou概括,但有沒有用就不知道了.)
搜狗蜘蛛爬蟲UA:
“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
5、必應蜘蛛:bingbot
必應蜘蛛爬蟲UA:
“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”
6、SOSO蜘蛛:Sosospider
騰訊已玩死,交給搜狗公司了
soso蜘蛛爬蟲UA:“Sosospider+(+http://help.soso.com/webspider.htm)”
7、雅虎蜘蛛:Yahoo! Slurp China(雅虎中國)或Yahoo! Slurp(雅虎英文)
雅虎蜘蛛爬蟲UA:
雅虎中國:“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”
雅虎英文:“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
8、MSN蜘蛛:msnbot,msnbot-media
重慶SEO好像只見到msnbot-media在狂爬……
MSN蜘蛛爬蟲UA:*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)
其它還有 一搜蜘蛛:YisouSpider、Alexa蜘蛛:ia_archiver、宜搜蜘蛛:EasouSpider、即刻蜘蛛:JikeSpider,以及還有YandexBot、AhrefsBot和ezooms.bot等這些蜘蛛,據(jù)說這幾個國外的蜘蛛都不咋好
搜索引擎蜘蛛是搜索引擎的一個自動程序。它的作用是訪問互聯(lián)網(wǎng)上的網(wǎng)頁、圖片、視頻等內容,建立索引數(shù)據(jù)庫,使用戶能在搜索引擎中搜索到您網(wǎng)站的網(wǎng)頁、圖片、視頻等內容。
一般用法為“ spider+URL”,后面的URL(網(wǎng)址)是搜索引擎的痕跡,如果要查看某搜索引擎是否來爬取過你們的網(wǎng)站,可查看服務器的日志里是否有該URL,同時還能查看來的時間、頻率等…
1、百度蜘蛛:可以根據(jù)服務器的負載能力調節(jié)訪問密度,大大降低服務器的服務壓力。根據(jù)以往的經(jīng)驗百度蜘蛛通常會過度重復地抓取同樣的頁面,導致其他頁面無法被抓取到而不能被收錄。這種情況可以采取 robots協(xié)議的方法來調節(jié)。
2、谷歌蜘蛛:谷歌蜘蛛屬于比較活躍的網(wǎng)站掃描工具,其間隔28天左右就派出“蜘蛛”檢索有更新或者有修改的網(wǎng)頁。與百度蜘蛛大的不同點是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。
3、雅虎中國蜘蛛:如果某個網(wǎng)站在谷歌網(wǎng)站下沒有很好的收錄,在雅虎下也不會有很好的收錄和爬行。雅虎蜘蛛的數(shù)量龐大,但平均的效率不是很高,相應的搜索結果質量不高。
4、微軟必應蜘蛛:必應與雅虎有著深度的合作關系,所以基本運行模式和雅虎蜘蛛差不多。
搜索引擎蜘蛛的抓取規(guī)則,如下四點提供參考:
1、搜索引擎蜘蛛要能看到鏈接文字
這個是搜索引擎蜘蛛爬行時能夠檢索到的文字,如果文字或鏈接是通過JavaScript調用,蜘蛛是檢索不到的。頁面的文字內容中主要內容位置越靠前越有利,例如產品名稱放到頁面越靠前的位置,對該頁面產品關鍵詞的排名越有利。
2、搜索引擎蜘蛛能爬行未經(jīng) nofollow處理過的鏈接
這一項列出的是搜索引擎蜘蛛能夠檢索到鏈接,蜘蛛能夠通過這些鏈接訪問網(wǎng)站其他頁面,越靠前的鏈接,被蜘蛛爬行的幾率就越大,被搜索引擎收錄的可能性越高。
3、搜索引擎蜘蛛能發(fā)現(xiàn)圖片鏈接并能閱讀到這些圖片所包含的含義
這里主要展示該頁面被搜索引擎蜘蛛和國際W3C標準化監(jiān)測器所檢索到的圖片,搜索引擎能夠根據(jù)圖片at="" 去判斷該圖片的類型,性質和主題,對于判斷該圖片鏈接的頁面的主題有巨大幫助,能有效提高商品展示頁的搜索引擎排名根據(jù)W3C標準,頁面上所有圖片都必須添加alt="" 圖片注釋,網(wǎng)站Logo使用網(wǎng)站名稱加簡短描述,商品圖片使用商品名稱,網(wǎng)頁框架圖片留空。
4、搜索引擎蜘蛛能很好地識別HTML代碼
模擬搜索引擎蜘蛛爬行該頁面時,獲得的“最簡化代碼->是指過濾css, JavaScript后的代碼”,由此可以看出減少代碼空行,換行,空格等多余代碼空間非常重要。
5、搜狗蜘蛛:搜狗蜘蛛的爬取速度比較快,抓取的數(shù)量比起速度來說稍微少點。大的特點是不抓取 robot. text文件。
6、搜搜蜘蛛:搜搜早期是運用谷歌的搜索技術,谷歌有收錄,搜搜肯定也會收錄。2011年搜搜已經(jīng)宣布采用自己的獨立搜索技術,但搜搜蜘蛛的特性和谷歌蜘蛛的特點還是有著相似的地方。
8、有道蜘蛛:和其他搜索引擎蜘蛛一樣,凡是高權重網(wǎng)站的鏈接一般都能將其收錄。爬行原理也是通過鏈接之間的爬行。
文章題目:各搜索引擎蜘蛛介紹,搜索引擎蜘蛛爬取網(wǎng)站,抓取數(shù)據(jù)的規(guī)則
分享鏈接:http://www.rwnh.cn/news/214938.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站改版、網(wǎng)頁設計公司、營銷型網(wǎng)站建設、服務器托管、網(wǎng)站建設、企業(yè)網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內容