文章詳情頁(yè)
python - 網(wǎng)頁(yè)title中包含換行,如何用正則表達(dá)式提取出來(lái)?
瀏覽:130日期:2022-06-28 10:07:00
問(wèn)題描述
在用python做CSDN的網(wǎng)頁(yè)爬蟲(chóng),在爬取網(wǎng)頁(yè)title時(shí),我一直用的正則表達(dá)式(?<=<title>).+?(?=<)在CSDN中用不了了,去CSDN源碼一看,title換行顯示了
所以導(dǎo)致原來(lái)的正則表達(dá)式無(wú)法使用,那么,問(wèn)題來(lái)了,像這樣網(wǎng)頁(yè)title中包含換行,如何用正則表達(dá)式提取出來(lái)呢?
PS:
不想用xpath或beautifulsoup的方法,只需要正則哦
CSDN本身有反爬蟲(chóng)機(jī)制,我并不是因?yàn)檫@個(gè)反爬蟲(chóng)而爬不到title的哦
謝謝大家
參照@caimaoy 的方法,我將正則表達(dá)式改為 (?<=<title>)(?:.|n)+?(?=<)后,title完美提取。再次感謝大家。
問(wèn)題解答
回答1:re.M 多行模式
自己寫多行匹配 http://python3-cookbook.readt...
回答2:表達(dá)式那邊加個(gè)flag吧
tite = ’......’print(re.findall(’(?<=<title>).+?(?=<)’, title, re.S))
排行榜

熱門標(biāo)簽