亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

python 爬蟲 解析效率如何提升?

瀏覽:113日期:2022-06-29 17:26:48

問題描述

現在采用的是在windows 環境下 采用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析.

N個爬取線程->解析隊列->1個解析線程->存儲隊列->1個存儲線程

整個執行程序的效率卡在計算密集的解析線程中,如果只是增加解析線程數量的話,反而增加線程切換開銷速度變慢。

請問下 有什么辦法可以較為明顯的提升解析效率?

根據兩位大腿的說明 準備采用異步爬取->解析隊列->N個解析進程->存儲隊列->存儲線程

準備開工

問題解答

回答1:

其實我覺得, 你在前面N個爬取線程 可以換成協程/線程池實現, 因為你在頻繁創建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協程這方面, 應該是比較合適的.1個解析線程 換成 進程池,多開幾個進程去計算密集處理, 其余應該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2:

我的做法是多進程。多進程的好處是當單機性能不夠的時候,可以隨時切換為分布式爬蟲。

回答3:

可以網上找下tornade異步爬蟲吧,我正在用這個

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 韩国免费特一级毛片 | 国产成人一区二区三区视频免费 | 国产日韩一区二区三区 | 久久电影精品 | 精品五夜婷香蕉国产线看观看 | 三级aa| 国产人成亚洲第一网站在线播放 | 国产毛片不卡 | 国产性生大片免费观看性 | 国产伦精品一区三区视频 | 国产精品免费麻豆入口 | 天天影视色香欲综合网天天录日日录 | 久久在线综合 | 99在线精品国产不卡在线观看 | 生活片毛片 | 亚洲在线国产 | 视频一区视频二区在线观看 | 久久久久久天天夜夜天天 | 视频一区免费 | 国产精品久久久久久久久齐齐 | 日本xxx高清免费视频 | 性激烈的欧美暴力三级视频 | 久久er热视频在这里精品 | 六月丁香深爱六月综合激情 | 国产高清在线精品 | 麻豆亚洲精品一区二区 | 看黄在线 | 最近在线更新中文字幕3 | 男女爱爱免费网站视频在线观看 | 91小视频在线观看 | 青草国产在线观看 | 青青草91| 二区在线播放 | 在线看成品视频入口免 | 色综合天天综合高清影视 | 黄色毛片免费在线观看 | 亚洲春色综合另类网蜜桃 | 亚洲精品视频免费观看 | 视频二区在线 | 色欧美在线视频 | 在线观看黄色片网站 |