preg_match_all($regular,$html_data,$connect);//進(jìn)行正規(guī)匹配取得自己要的內(nèi)容
//循環(huán)取出需要的內(nèi)容數(shù)組
foreach($connect as $k =>$var){
if($k==2 || $k==3|| $k==5|| $k==7){
$b= array_merge(array_filter($connect[$k]));
$array[]=$b;
}
}
得到數(shù)據(jù)數(shù)組后 就可以根據(jù)需求去添加數(shù)據(jù)了
內(nèi)容詳情需要抓取就獲取到新聞內(nèi)容頁的鏈接 同樣使用curl去獲取信息
要注意的就是正則表達(dá)式里面的html需要跟頁面的格式一樣, 你可以去原網(wǎng)站點(diǎn)右鍵查看源代碼,查看格式, 把要抓取的html復(fù)制下來 ,如果還是有不能抓取的內(nèi)容可能就是格式不正確 有可能有的地方是少空格或者多空格, 這個(gè)時(shí)候直接在標(biāo)簽之間(.*?)。也可以 一點(diǎn)一點(diǎn)的匹配 看具體是哪個(gè)部分沒有匹配到。
標(biāo)題名稱:PHP使用curl抓取新聞數(shù)據(jù)
當(dāng)前網(wǎng)址:http://www.rwnh.cn/news/242612.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營銷推廣、網(wǎng)站建設(shè)、軟件開發(fā)、移動網(wǎng)站建設(shè)、品牌網(wǎng)站建設(shè)、App設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)