2022-12-20 分類: 網(wǎng)站建設(shè)
高頻率發(fā)布原創(chuàng)內(nèi)容的網(wǎng)站很容易遭到虛假百度蜘蛛的攻擊,以竊取網(wǎng)站原創(chuàng)內(nèi)容!那么怎么分辨真假百度蜘蛛呢?分辨后又怎么去禁止虛假百度蜘蛛偷取網(wǎng)站內(nèi)容呢?
一、什么是假蜘蛛?
搜索引擎爬蟲我們稱之為蜘蛛,假蜘蛛即偽裝成搜索引擎的爬蟲。目的就是掩人耳目的去爬取采集網(wǎng)站的內(nèi)容。
普通的爬蟲很容易被站點(diǎn)發(fā)現(xiàn)屏蔽,對(duì)于搜索引擎蜘蛛站點(diǎn)都是沒什么警惕心,希望多來抓取可以有效增加收錄量和速度。
二、如何鑒別假蜘蛛
網(wǎng)站日志會(huì)記錄所有訪問ip的請(qǐng)求頭即user-agent,通過修改蜘蛛的請(qǐng)求頭為搜索引擎公布的蜘蛛的UA名。
因此,我們光看日志是無法直接辨別真假蜘蛛的。大多數(shù)搜索引擎都是ip反查,比如我們通過windows電腦cmd中使用nslookp反查蜘蛛的ip能夠獲取到對(duì)應(yīng)搜索引擎解析的為真蜘蛛,在這種方法下假蜘蛛無法遁形。
但是問題是如果不能事實(shí)鑒別假蜘蛛,內(nèi)容被采集走了在屏蔽也失去了意義。
三、如何防止假蜘蛛抓取內(nèi)容?
1、添加蜘蛛白名單
有些蜘蛛無法支持反查,我們可以把這類蜘蛛的ip段添加白名單,同時(shí)我們對(duì)于網(wǎng)站反查到的蜘蛛ip經(jīng)過人工確定之后,也同樣加入白名單??梢苑乐钩绦虺鲥e(cuò)時(shí)誤屏蔽蜘蛛,以及加快程序的響應(yīng)速度。
2、原創(chuàng)保護(hù)防采集
對(duì)于其他的爬蟲我們還是需要去檢測(cè)同一個(gè)ip是否有大段時(shí)間大量訪問的行為,對(duì)于異常ip我們可以使用驗(yàn)證碼等方式驗(yàn)證,這也是基于我們擁有了通過ip鑒別蜘蛛的前提下,可以避免誤傷搜索引擎的抓取任務(wù)采集。
只要你的內(nèi)容可以顯示就可以有辦法采集,要想完全避免是不可能的,是雙方之間的一場(chǎng)博弈。
以上就是《[SEO優(yōu)化]如何防止假蜘蛛抓取內(nèi)容?》的全部?jī)?nèi)容,僅供站長(zhǎng)朋友們互動(dòng)交流學(xué)習(xí),SEO優(yōu)化是一個(gè)需要堅(jiān)持的過程,希望大家一起共同進(jìn)步。
新聞標(biāo)題:網(wǎng)站建設(shè),[SEO優(yōu)化]如何防止假蜘蛛抓取內(nèi)容?
標(biāo)題網(wǎng)址:http://www.rwnh.cn/news/224292.html
網(wǎng)站建設(shè)、網(wǎng)絡(luò)推廣公司-創(chuàng)新互聯(lián),是專注品牌與效果的網(wǎng)站制作,網(wǎng)絡(luò)營(yíng)銷seo公司;服務(wù)項(xiàng)目有網(wǎng)站建設(shè)等
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容