亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術(shù)文章
文章詳情頁

python - 關(guān)于代碼的優(yōu)化問題

瀏覽:120日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內(nèi)容,雖然解決問題,但是會有遺漏文件不處理。爬蟲是爬一些文章的網(wǎng)站下來的,和網(wǎng)頁另存為沒什么區(qū)別。

想大神們幫我看看我的代碼,怎么優(yōu)化不會有遺漏。比較小白的代碼,麻煩了?。?!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 嫩草视频在线观看免费 | 欧美日韩国产在线成人网 | 91精品一区国产高清在线 | 三级在线免费看 | 韩国不卡1卡2卡三卡网站 | 国产69精品久久久久777 | 最新国产美女一区二区三区 | 1000部国产拍拍拍拍在线观看 | 特级淫片国产免费高清视频 | 黄色一级免费观看 | blacked欧美一区二区 | 午夜啪啪免费视频 | 国产免费人做爰午夜视频 | a级精品九九九大片免费看 a级情欲片在线观看免费女中文 | 一区二区三区免费 | 欧美成人禁片在线观看网址 | 在线亚洲精品防屏蔽 | 国产欧美在线观看不卡 | 久久电影精品 | 国产精品免费一区二区三区四区 | 亚洲一区区 | 毛片免费观看久久欧美 | 丁香六月 久久久 | 亚洲色图二区 | 国产精品一区二区三 | 免费国产视频在线观看 | 日韩精品久久久毛片一区二区 | 国产123 | 日韩美aaa特级毛片 日韩美a一级毛片 | 免费看黄资源大全高清 | 在线亚洲精品国产成人二区 | 亚洲精品啪啪一区二区三区 | 免费观看在线永久免费xx视频 | 久久精品国产精品亚洲综合 | 国产欧美另类久久精品91 | 色婷婷亚洲五月色综合色 | 久久国产精品久久久久久小说 | 国产精品久久不卡日韩美女 | 精品国产成人高清在线 | 日本成片 | 黄网站免费在线观看 |