創(chuàng)新互聯(lián)告訴你什么是robots.txt

2021-09-02 分類：網(wǎng)站建設(shè)

robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí)，它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下，而且文件名必須全部小寫。
語法：最簡(jiǎn)單的 robots.txt 文件使用兩條規(guī)則：
User-agent: 適用下列規(guī)則的漫游器
Disallow: 要攔截的網(wǎng)頁
[編輯本段]robots.txt使用誤區(qū)
誤區(qū)一：我的網(wǎng)站上的所有文件都需要蜘蛛抓取，那我就沒必要在添加robots.txt文件了。反正如果該文件不存在，所有的搜索蜘蛛將默認(rèn)能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
每當(dāng)用戶試圖訪問某個(gè)不存在的URL時(shí)，服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤（無法找到文件）。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時(shí)，服務(wù)器也將在日志中記錄一條404錯(cuò)誤，所以你應(yīng)該做網(wǎng)站中添加一個(gè)robots.txt。
誤區(qū)二：在robots.txt文件中設(shè)置所有的文件都可以被搜索蜘蛛抓取，這樣可以增加網(wǎng)站的收錄率。
網(wǎng)站中的程序腳本、樣式表等文件即使被蜘蛛收錄，也不會(huì)增加網(wǎng)站的收錄率，還只會(huì)浪費(fèi)服務(wù)器資源。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引這些文件。
具體哪些文件需要排除，在robots.txt使用技巧一文中有詳細(xì)介紹。
誤區(qū)三：搜索蜘蛛抓取網(wǎng)頁太浪費(fèi)服務(wù)器資源，在robots.txt文件設(shè)置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁。
如果這樣的話，會(huì)導(dǎo)致整個(gè)網(wǎng)站不能被搜索引擎收錄。
[編輯本段]robots.txt使用技巧
1. 每當(dāng)用戶試圖訪問某個(gè)不存在的URL時(shí)，服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤（無法找到文件）。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時(shí)，服務(wù)器也將在日志中記錄一條404錯(cuò)誤，所以你應(yīng)該在網(wǎng)站中添加一個(gè)robots.txt。
2. 網(wǎng)站管理員必須使蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄——保證服務(wù)器性能。比如：大多數(shù)網(wǎng)站服務(wù)器都有程序儲(chǔ)存在“cgi-bin”目錄下，因此在robots.txt文件中加入“Disallow: /cgi-bin”是個(gè)好主意，這樣能夠避免將所有程序文件被蜘蛛索引，可以節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有：后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。
下面是VeryCMS里的robots.txt文件：
User-agent: *
Disallow: /admin/ 后臺(tái)管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 圖片
Disallow: /data/ 數(shù)據(jù)庫文件
Disallow: /template/ 模板文件
Disallow: /css/ 樣式表文件
Disallow: /lang/ 編碼文件
Disallow: /script/ 腳本文件
3. 如果你的網(wǎng)站是動(dòng)態(tài)網(wǎng)頁，并且你為這些動(dòng)態(tài)網(wǎng)頁創(chuàng)建了靜態(tài)副本，以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設(shè)置避免動(dòng)態(tài)網(wǎng)頁被蜘蛛索引，以保證這些網(wǎng)頁不會(huì)被視為含重復(fù)內(nèi)容。
4. robots.txt文件里還可以直接包括在sitemap文件的鏈接。就像這樣：
Sitemap: http://www.rwnh.cn//sitemap.xml
目前對(duì)此表示支持的搜索引擎公司有Google, Yahoo, ask and MSN。而中文搜索引擎公司，顯然不在這個(gè)圈子內(nèi)。這樣做的好處就是，站長不用到每個(gè)搜索引擎的站長工具或者相似的站長部分，去提交自己的sitemap文件，搜索引擎的蜘蛛自己就會(huì)抓取robots.txt文件，讀取其中的sitemap路徑，接著抓取其中相鏈接的網(wǎng)頁。

5. 合理使用robots.txt文件還能避免訪問時(shí)出錯(cuò)。比如，不能讓搜索者直接進(jìn)入購物車頁面。因?yàn)闆]有理由使購物車被收錄，所以你可以在robots.txt文件里設(shè)置來阻止搜索者直接進(jìn)入購物車頁面。

網(wǎng)頁標(biāo)題：創(chuàng)新互聯(lián)告訴你什么是robots.txt
本文路徑：http://www.rwnh.cn/news/124838.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App開發(fā)、企業(yè)建站、云服務(wù)器、網(wǎng)站制作、標(biāo)簽優(yōu)化、自適應(yīng)網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

淺析網(wǎng)站優(yōu)化標(biāo)準(zhǔn)檢測(cè)的因素 2021-09-02
如何給網(wǎng)站選擇域名? 2021-09-02
網(wǎng)絡(luò)操作系統(tǒng)的安全問題 2021-09-02
專業(yè)網(wǎng)站制造-教您怎樣做好網(wǎng)站 2021-09-02
高效可維護(hù)的網(wǎng)站結(jié)構(gòu) 2021-09-01
如何做好網(wǎng)絡(luò)營銷 2021-09-01
企業(yè)網(wǎng)頁設(shè)計(jì)的內(nèi)鏈接問題 2021-09-01

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

創(chuàng)新互聯(lián)告訴你什么是robots.txt