亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

瀏覽:5日期:2022-08-06 16:43:24
目錄使用范例常用的對象–Tag常用的對象–NavigableString常用的對象–BeautifulSoup常用的對象–Comment對文檔樹的遍歷tag中包含多個字符串的情況.stripped_strings 去除空白內容搜索文檔樹–find和find_allselect方法(各種查找)獲取內容總結使用范例

from bs4 import BeautifulSoup#創建 Beautiful Soup 對象# 使用lxml來進行解析soup = BeautifulSoup(html,'lxml')print(soup.prettify())

返回結果

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

常用的對象–Tag

就是 HTML 中的一個個標簽

在上面范例的基礎上添加

from bs4 import BeautifulSoup#創建 Beautiful Soup 對象# 使用lxml來進行解析soup = BeautifulSoup(html,'lxml')#print(soup.prettify())#創建 Beautiful Soup 對象soup = BeautifulSoup(html,’lxml’)print (soup.title)#None因為這里沒有tiele標簽所以返回noneprint (soup.head)#None因為這里沒有head標簽所以返回noneprint (soup.a)#返回 <a target='_blank'>編輯自我介紹,讓更多人了解你<span class='write-icon'></span></a>print (type(soup.p))#返回 <class ’bs4.element.Tag’>print( soup.p)

其中print( soup.p)

返回結果為

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

同樣地,在上面地基礎上添加

print (soup.name)# [document] #soup 對象本身比較特殊,它的 name 即為 [document]

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

print (soup.head.name)#head #對于其他內部標簽,輸出的值為標簽本身的名稱

print (soup.p.attrs)##把p標簽的所有屬性打印出來,得到的類型是一個字典。

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

print (soup.p[’class’])#獲取P標簽下地class標簽

soup.p[’class’] = 'newClass'print (soup.p) # 可以對這些屬性和內容等等進行修改

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

常用的對象–NavigableString

前面地基礎上添加

print (soup.p.string)# The Dormouse’s storyprint (type(soup.p.string))# <class ’bs4.element.NavigableString’>thon

返回結果

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

常用的對象–BeautifulSoup

beautiful soup對象表示文檔的全部內容。大多數情況下,它可以被視為標記對象。它支持遍歷文檔樹并搜索文檔樹中描述的大多數方法因為Beauty soup對象不是真正的HTML或XML標記,所以它沒有名稱和屬性。但是,有時查看其內容很方便。Name屬性,因此美麗的湯對象包含一個特殊屬性。值為“[文檔]”的名稱

print(soup.name)#返回 ’[document]’常用的對象–Comment

用于解釋注釋部分的內容

markup = '<b><!--Hey, buddy. Want to buy a used parser?--></b>'soup = BeautifulSoup(markup)comment = soup.b.stringtype(comment)# <class ’bs4.element.Comment’>對文檔樹的遍歷

在上面的基礎上添加

head_tag = soup.div# 返回所有子節點的列表print(head_tag.contents)

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

同理

head_tag = soup.div# 返回所有子節點的迭代器for child in head_tag.children: print(child)

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

tag中包含多個字符串的情況

可用 .strings 來循環獲取

for string in soup.strings: print(repr(string))

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

.stripped_strings 去除空白內容

for string in soup.stripped_strings: print(repr(string))

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

搜索文檔樹–find和find_all

找到所有

print(soup.find_all('a',id=’link2’))

find方法是找到第一個滿足條件的標簽后立即返回,返回一個元素。find_all方法是把所有滿足條件的標簽都選到,然后返回。

select方法(各種查找)

#通過標簽名查找:print(soup.select(’a’))#通過類名查找:#通過類名,則應該在類的前面加一個’.’print(soup.select(’.sister’))#通過id查找:#通過id查找,應該在id的名字前面加一個#號print(soup.select('#link1'))

查找a標簽返回的結果

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

其他因為網頁本身沒有,返回的是一個空列表

組合查找

print(soup.select('p #link1'))#查找 p 標簽中,id 等于 link1的內容

子標簽查找

print(soup.select('head > title'))

通過屬性查找

print(soup.select(’a[]’))#屬性與標簽屬同一節點,中間不能有空格獲取內容

先查看類型

print (type(soup.select(’div’)))

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

for title in soup.select(’div’): print (title.get_text())

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

print (soup.select(’div’)[20].get_text())#選取第20個div標簽的內容

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

總結

本篇文章就到這里了,希望能給你帶來幫助,也希望您能夠多多關注好吧啦網的更多內容!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 久久狠狠干 | 一级视频在线观看 | 丰满多水的寡妇毛片免费看 | 2021久久精品99精品久久 | 啪啪网免费视频 | 亚洲国产成人久久综合碰碰动漫3d | 8x成人在线 | 中文字幕一区日韩在线视频 | 夜色在线影院 | 日韩日韩日韩日韩日韩 | 青青青在线日本免费视频 | 模特尤妮丝凹凸福利视频 | 欧美日韩性视频一区二区三区 | 日韩a级毛片免费观看 | 国产剧情福利 | 9191精品国产免费不久久 | 国产一级一级毛片 | 欧美成人精品欧美一级乱黄 | 国产女人体一区二区三区 | 丰满寡妇一级毛片 | 午夜在线观看视频免费 成人 | 国产一级特黄老妇女大片免费 | 欧美亚洲精品一区二三 | 91精品国产综合久久青草 | 黄色大片视频网站 | 欧美啊v在线观看 | 精品中文字幕制服中文 | 成人国产亚洲欧美成人综合网 | 日本v片免费一区二区三区 日本wwwwwxxxxx | 99国产成+人+综合+亚洲 欧美 | 天天噜噜色 | 久久久久久久久久鸭 | 欧美日本韩国一区 | 久久精品国产精品亚洲人人 | 福利在线看片 | 色婷婷六月丁香在线观看 | 国产911情侣拍拍在线播放 | 黄色三级毛片网站 | 欧美a一级 | 麻豆麻豆必出精品入口 | 美女啪啪国产 |