2023-04-11 分類: 網(wǎng)站建設(shè)
1、圖像采集
在章魚中,采取以下步驟收集圖片
1)先鏈接網(wǎng)址圖片收藏
2)通過八達(dá)通提供的圖片批量下載工具將網(wǎng)址轉(zhuǎn)換成圖片
章魚圖片批量下載工具
2、常見應(yīng)用場景
1)非瀑布流網(wǎng)站純圖片采集
樣本采集:豆瓣網(wǎng)圖片采集課程
2)瀑布流網(wǎng)站純圖片集
這些瀑布流網(wǎng)站的獲取規(guī)則需要按照以下步驟設(shè)置:
(1)點(diǎn)擊采集規(guī)則,打開網(wǎng)頁步驟高級選項(xiàng);
(2)頁面加載后向下滾動;
(3)填寫每卷的卷數(shù)和間隔;
(4)滾動方式設(shè)置如下:直接滾動到底部;
完成上述規(guī)則后,將收集頁面上圖片的URL。
收藏實(shí)例:百度圖片收藏課程
注意:根據(jù)網(wǎng)頁的加載情況設(shè)置滾動條數(shù)和滾動間隔。如果向下滾動,頁面信息將緩慢加載。建議將滾動間隔設(shè)置得更大。滾動的數(shù)量應(yīng)該取決于我們滾動多少次來加載我們需要的所有數(shù)據(jù)。建議多準(zhǔn)備一兩次。滾動方式是查看當(dāng)頁面滾動時,是否可以順利加載所有數(shù)據(jù),或者是否必須一次滾動一個屏幕。一般來說,一次滾動一個屏幕更好,但更耗時。滾動屏幕取決于屏幕的大小,而云捕獲默認(rèn)為全屏。
3)文章圖文集
有兩種方法可以收集文章中的文本和圖片。
方法1:設(shè)置判斷條件,分別收集文字和圖片。
采集實(shí)例:騰訊新聞圖片文本采集
方法二:先收集全文,再收集圖片。
樣本采集:UC頭圖像采集
3、課程目的
收集圖片URL的這一步驟在上面的圖片收集教程中有詳細(xì)描述,不會重復(fù)。本文將重點(diǎn)介紹圖像采集的技術(shù)和注意事項(xiàng)。
4、圖片URL采集流程
下面是一個具體操作步驟的演示,以百度圖像的URL采集為例來捕獲圖像的URL。不同的網(wǎng)站圖片URL會遇到不同的情況,請靈活。
選擇圖片全選收集以下圖片地址
(2)開始收集并查看結(jié)果。收集圖片URL。
具體流程步驟參考:瀑布流圖像采集,以百度圖像為例,步驟1-4。
5、圖片批量導(dǎo)出操作步驟
經(jīng)過上述操作,我們得到了要采集的圖像的URL。接下來,我們通過章魚的圖像批量下載工具將圖像下載并保存到本地計(jì)算機(jī)的圖像URL中。
1)下載八達(dá)通圖片批量下載工具,雙擊文件中的mydownloader.app.exe,打開軟件。
2)打開文件菜單,選擇從Excel導(dǎo)入(目前僅支持Excel格式文件)
3)設(shè)置
選擇Excel文件:導(dǎo)入需要下載圖像地址的Excel文件
Excel表名:對應(yīng)數(shù)據(jù)表的名稱
文件URL列名:表中對應(yīng)URL的列名
保存文件夾名稱:Excel需要一個單獨(dú)的列,列出圖像要保存到該文件夾的路徑。在上面的例子中,我們在excel中添加了一個名為“picturesavefolder”的列,列中的數(shù)據(jù)是“d:baidupicturecollection”,然后“d:baidupicturecollection”就成為圖片保存的路徑(其他磁盤可以自定義存儲,文件夾名可以自定義修改;“d:\”需要輸入英文狀態(tài))。
網(wǎng)站標(biāo)題:關(guān)于八爪魚的偽原創(chuàng)采集器的正確使用方法
網(wǎng)址分享:http://www.rwnh.cn/news25/253175.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信公眾號、網(wǎng)站內(nèi)鏈、響應(yīng)式網(wǎng)站、商城網(wǎng)站、Google、動態(tài)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容