文章詳情頁

python BeautifulSoup庫的安裝與使用

瀏覽：4日期：2022-07-01 18:52:05

1.BeautifulSoup簡介

BeautifulSoup4和 lxml 一樣，Beautiful Soup 也是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 數據。

BeautifulSoup支持Python標準庫中的HTML解析器,還支持一些第三方的解析器，如果我們不安裝它，則 Python 會使用 Python默認的解析器，lxml 解析器更加強大，速度更快，推薦使用lxml 解析器。

Beautiful Soup自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然后，你僅僅需要說明一下原始編碼方式就可以了。

2.BeautifulSoup的安裝

首先我們需要安裝一個BeautifulSoup庫。我安裝的版本是python3。所以就可以直接在cmd下用pip3命令進行安裝。

命令：

pip3 install beautifulsoup4

在安裝好BeautifulSoup后，我們可以通過導入該庫來判斷是否安裝成功。

命令：

>>> from bs4 import BeautifulSoup

回車后不報錯，這說明我們已經將其安裝成功。

3.BeautifulSoup常用功能

# beautiful soup 網頁中提取信息的python庫# BeautifulSoup 對象表示的是一個文檔的全部內容# prettify() 按照標準的縮進格式的結構輸出# get_text() 會將HTML文檔中的所有標簽清除,返回一個只包含文字的字符串from bs4 import BeautifulSouptext=’’’<?xml version='1.0' encoding='ISO-8859-1'?><bookstore><book> <title lang='eng'>Harry Potter</title> <price>29.99</price></book><book> <title lang='eng'>Learning XML</title> <price>39.95</price></book></bookstore>’’’# create 對象bf=BeautifulSoup(text)# 按照標準縮進格式輸出print(bf.prettify())# 會將HTML文檔中的所有標簽清除,返回一個只包含文字的字符串print(bf.get_text())# Tag對象 # 標簽表示HTML中的一個個標簽# name# attrstag=bf.title # 獲取title標簽print(tag)print(type(tag)) # tag類型print(tag.name) # 標簽名稱print(tag.attrs) #標簽屬性print(tag.attrs['lang']) #單獨獲取某個屬性方法1print(bf.title['lang']) #單獨獲取某個屬性方法2# NavigableString tag.string# 表示標簽中的文字print(tag.string)print(type(tag.string)) # 查看數據類型# Comment 注釋部分# 一個特殊類型的NavigableString對象# 輸出的內容不包括注釋符號string=’’’<p></p>’’’sp=BeautifulSoup(string)print(sp)print(sp.p.string) # 去獲取標簽中是文字

# 兩個常用函數 # find_all() 搜索當前tag的所有tag子節點,并判斷是否符合給定的條件# 返回結果是一個列,可以包含多個元素print(soup.find_all(’title’),end='n-------n')#find() 直接返回第一個元素print(soup.find('title'))print(soup.find_all('title',lang='eng')) # 查找title標簽屬性lang=engprint(soup.find_all('title',{'lang':'eng'})) # 結果同上print(soup.find_all(['title','price'])) #獲取多個標簽print(soup.find_all('title',lang='eng')[0].get_text()) # 獲取文本# 三大常見節點# 子節點一個Tag可能包含多個字符串或其他的tag，這些都是這個tag的子節點# 父節點配個tag或字符串都有父節點：被包含在某個tag中# 兄弟節點平級的節點end='n-------n'print(soup.book,end) # 獲取book節點信息print(soup.book.contents,end) # 獲取book下的所有子節點print(soup.book.contents[1],end) # 獲取book下的所有子節點中的第一個節點print(soup.book.children,end) # children 生成迭代器for child in soup.book.children: print('===',child) print(soup.title.parent,end)print(soup.book.parent,end)for parent in soup.title.parents: #注意parent和parents區別 print('===',parent.name) print(soup.title.next_sibling,end) # 獲取該節點的下一個兄弟節點print(soup.title.previous_sibling,end) # 獲取該節點的上一個兄弟節點print(soup.title.next_siblings,end) # 獲取該節點的全部兄弟節點for i in soup.title.next_siblings: print('===',i)

以上就是python BeautifulSoup庫的安裝與使用的詳細內容，更多關于python BeautifulSoup庫的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：python 實現一個簡單的線性回歸案例下一條：python中翻譯功能translate模塊實現方法

相關文章：

1. JSP的Cookie在登錄中的使用2. asp(vbscript)中自定義函數的默認參數實現代碼3. HTML5 Canvas繪制圖形從入門到精通4. 使用Spry輕松將XML數據顯示到HTML頁的方法5. 利用CSS3新特性創建透明邊框三角6. ASP基礎知識VBScript基本元素講解7. 詳解CSS偽元素的妙用單標簽之美8. XHTML 1.0：標記新的開端9. php網絡安全中命令執行漏洞的產生及本質探究10. XML入門的常見問題(四)

排行榜

					
					IntelliJ IDEA配置Tomcat服務器的方法
IDEA Git Stash 使用詳解
IntelliJ IDEA 統一設置編碼為utf-8編碼的實現
利用CSS3新特性創建透明邊框三角
python selenium 獲取接口數據的實現
php strncmp函數原型源碼分析
php網絡安全中命令執行漏洞的產生及本質探究
詳解CSS偽元素的妙用單標簽之美
詳談ajax返回數據成功 卻進入error的方法
ajax實現頁面的局部加載
Ajax提交post請求案例分析