這篇文章給大家分享的是有關Python中bs4基礎的示例分析的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
安裝
在命令提示符框中直接輸入pip install beautifulsoup4
介紹
beautifulsoup是python的一個第三方庫,和xpath一樣,都是用來解析html數(shù)據(jù)的。
引入
from bs4 import BeautifulSoup
使用
將一段文檔傳入BeautifulSoup的構造方法,就能得到一個文檔的對象。
bs = BeautifulSoup(open('index.html',encoding='utf-8'),'lxml') print(bs)
注意:這樣上傳文檔的話,BeautifulSoup里面需要兩個參數(shù)。一個為open方法,一個是固定寫法,也就是解析器。
open方法里面也同樣需要兩個參數(shù),一個是想要解析的數(shù)據(jù),另一個為設置編碼的格式。
(1)獲取網頁中的title標簽
print(bs.title)
(2)獲取head標簽及標簽內部的所有其他標簽
print(bs.head)
(3)獲取當中的第一個a標簽
print(bs.a)
注意:獲取文檔當中所有的xx當中第一個xx或者第一個xx里面的內容。都可以用bs.xx來獲取
(4)獲取指定標簽的所有屬性
print(bs.a.attrs)
(5)獲取標簽的屬性
print(bs.a['href'])
(6)獲取標簽的文本內容。
print(bs.a.string)
注意:string獲取的文本指的是本標簽的文本,不包含子標簽的文本
(7)contents能夠獲取指定標簽下面的所有內容。
print(bs.body.contents)
(8)獲取所有內容當中指定索引的內容
print(bs.div.contents[3])
(9)通過id和類名來找標簽
print(bs.find(id='kw'))
print(bs.find(class_='shopping'))
注意:id是唯一的,通過id來找,只能找到一個,所以用find,而class不是唯一的,通過class來找,就有可能找到多個。
(10)select選擇指定的標簽
print(bs.select('title'))
print(bs.select('a'))
在bs4中,小數(shù)點“.”表示類名,#表示id
print(bs.select('.first'))
print(bs.select('#kw'))
print(bs.select('div.now'))
感謝各位的閱讀!關于“Python中bs4基礎的示例分析”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
網站名稱:Python中bs4基礎的示例分析-創(chuàng)新互聯(lián)
標題路徑:http://www.rwnh.cn/article26/csjhcg.html
成都網站建設公司_創(chuàng)新互聯(lián),為您提供云服務器、域名注冊、ChatGPT、商城網站、企業(yè)網站制作、用戶體驗
聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)