亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

Python爬蟲如何爬取span和span中間的內容并分別存入字典里?

瀏覽:88日期:2022-07-15 16:32:54

問題描述

我想把房屋概況分別抓出來并分別作為獨立的列存儲進字典里,但是行內元素沒有辦法直接用for循環摳出來。這是我的代碼:

soup.select(’.house-info li’)[1].text.strip()

這是網頁html代碼:

<li><span class='info-tit'>房屋概況:</span>住宅<span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>

問題解答

回答1:

其實還是很有簡單的,你看這個還是有規律的,規律在于有分隔符|,我寫了個DEMO

something = ’’’<li><span class='info-tit'>房屋概況:</span>住宅 <span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>’’’;soup = BeautifulSoup(something, ’lxml’)plaintext = soup.select(’li’)[0].get_text().strip()

通過get_text()得到內在所有內容,然后去除空格。后面你就用split進行分割吧,后面的不寫了。如果有問題再交流。

回答2:我感覺這個html代碼寫錯了呢,標簽的內容文本在標簽外面

Python爬蟲如何爬取span和span中間的內容并分別存入字典里?

正確的標簽內容就兩個:

房屋概況:

46m2

回答3:

innerText

回答4:

你這種情況,我覺得用 for 循環加上正則表達式是最方便的,如果所有模版都是這樣固定的話

回答5:

用pyquery吧

from pyquery import PyQuery as Q

Q(text).find(’.house-info li’).text()

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 99久久99久久精品国产片果冻 | 免费大学生国产在线观看p 免费大黄网站在线观看 | 久久久久999 | 国产成人免费观看 | 精品国产97在线观看 | 国产99视频精品免费视频7 | 久久婷婷丁香 | 噜噜噜天天躁狠狠躁夜夜精品 | 特级毛片免费 | 成人做爰全过程免费的叫床看视频 | 国产免费高清在线精品一区 | 国产成人精选免费视频 | 欧美一区二区精品 | 国产欧美自拍 | 最新黄色在线 | 亚洲精品一区二区综合 | 国产亚洲久久 | 日本国产精品 | 九九久久精品 | 国产亚洲精品aaa大片 | 亚洲99久久无色码中文字幕 | 欧美成人午夜视频免看 | 久久久精品免费热线观看 | 最新在线鲁丝片eeuss第1页 | 色综合天天综合网国产成人网 | 国产精品欧美视频另类专区 | 尤物视频网在线观看 | 国产不卡视频 | 欧美日批视频 | 嘿嘿视频在线观看 成人 | 黄页网站18以下禁止观看 | 小明看看主页 | jk足控福利国产在线播放 | 中文字幕国产一区 | 日本无套 | 伊人久久青青 | 日韩a免费| 中文福利视频 | 性做久久久久久久免费观看 | 黄色一集片| 天天影视综合色 |