網(wǎng)頁采集作為政府網(wǎng)站網(wǎng)頁在線歸檔的首要環(huán)節(jié),就是利用相關(guān)工具,以既定的頻率和方式,及時(shí)選擇值得保存的政府網(wǎng)頁內(nèi)容。
網(wǎng)頁采集的第一步是要確定采集對(duì)象,政府網(wǎng)頁歸檔保存的信息采集對(duì)象是域名中含有“gov.cn”的政府網(wǎng)站,為確保政府網(wǎng)頁的采集質(zhì)量,需要對(duì)目標(biāo)網(wǎng)站進(jìn)行評(píng)價(jià),將那些信息規(guī)模大、原生性信息多、更新頻繁的政府網(wǎng)站選定為采集對(duì)象。在確定要采集的目標(biāo)政府網(wǎng)站之后,還應(yīng)根據(jù)實(shí)際需求選擇相應(yīng)的采集方式。完整性采集和選擇性采集是目前比較常用的網(wǎng)絡(luò)資源采集方式,它們各有優(yōu)缺點(diǎn),為了彌補(bǔ)其各自的不足,可以實(shí)現(xiàn)兩種采集方式的優(yōu)勢(shì)互補(bǔ),采用融合二者優(yōu)點(diǎn)的混合型采集方式,在對(duì)選定的政府網(wǎng)站中所有網(wǎng)頁進(jìn)行完整性采集的同時(shí),通過人工干預(yù)的方式對(duì)網(wǎng)頁內(nèi)容進(jìn)行甄別,對(duì)其中有證據(jù)價(jià)值、歷史價(jià)值、研究?jī)r(jià)值的重要網(wǎng)頁,有選擇性地進(jìn)行深層次的頻繁采集,這樣既考慮到了政府網(wǎng)頁采集面的廣度,同時(shí)又照顧到了重要網(wǎng)頁采集的深度。
而網(wǎng)頁的采集與捕獲最終還需要依靠相應(yīng)的網(wǎng)絡(luò)爬蟲工具來實(shí)現(xiàn),目前面向網(wǎng)頁存檔的爬蟲工具比較多,其中Heritrix、HTTrack最為常用,可利用這些工具來有針對(duì)性地完成對(duì)目標(biāo)政府網(wǎng)站網(wǎng)頁的自動(dòng)批量在線采集。
分享題目:新聞動(dòng)態(tài)網(wǎng)頁采集
分享URL:http://www.rwnh.cn/news/152455.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護(hù)、定制網(wǎng)站、網(wǎng)站內(nèi)鏈、網(wǎng)站收錄、網(wǎng)站營(yíng)銷、微信小程序
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源:
創(chuàng)新互聯(lián)