亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

python 爬蟲 解析效率如何提升?

瀏覽:94日期:2022-06-29 17:26:48

問題描述

現在采用的是在windows 環境下 采用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析.

N個爬取線程->解析隊列->1個解析線程->存儲隊列->1個存儲線程

整個執行程序的效率卡在計算密集的解析線程中,如果只是增加解析線程數量的話,反而增加線程切換開銷速度變慢。

請問下 有什么辦法可以較為明顯的提升解析效率?

根據兩位大腿的說明 準備采用異步爬取->解析隊列->N個解析進程->存儲隊列->存儲線程

準備開工

問題解答

回答1:

其實我覺得, 你在前面N個爬取線程 可以換成協程/線程池實現, 因為你在頻繁創建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協程這方面, 應該是比較合適的.1個解析線程 換成 進程池,多開幾個進程去計算密集處理, 其余應該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2:

我的做法是多進程。多進程的好處是當單機性能不夠的時候,可以隨時切換為分布式爬蟲。

回答3:

可以網上找下tornade異步爬蟲吧,我正在用這個

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 欧美不卡一区二区三区免 | 精品区在线观看 | 亚洲精品国产三级在线观看 | 国产精品爱久久久久久久电影 | 国产精品成人在线 | 欧美高清激情毛片 | 黄毛片 | 免费人成年短视频在线观看免费网站 | 99爱在线精品视频免费观看9 | 日本黄色网页 | 国产亚洲欧美日韩综合综合二区 | 99re这里有免费视频精品 | 欧美一级三级在线观看 | 一级做a爰片 | 久久一本一区二区三区 | 一级一片免费播放 | 妞干网免费 | 之后3在线观看完整免费酷客 | 国产精品天天看特色大片不卡 | 午夜影院啪啪 | 久久99精品久久久久久青青91 | 国产自线一二三四2021 | 欧美成人香蕉在线观看 | 91在线视频免费播放 | 一级毛片片 | 亚洲成人aaa | 特级aa一级欧美毛片 | 免费观看黄色一级片 | 在线观看www视频 | 亚洲欧美另类一区 | 免费的一极毛片在线播放 | 嘛豆传媒的短视频动漫 | 国产高清在线精品一区 | 青草视频在线观看国产 | x8x8女性性爽免费视频 | 久久久久久久综合狠狠综合 | 达达兔午夜起神影院在线观看麻烦 | 岛国视频在线观看免费播放 | 日韩视频免费 | 国产免费看网站v片不遮挡 国产免费高清 | 国产九色在线播放 |