文章詳情頁
javascript - Python 爬蟲 Ajax 頁面直接request獲取居然速度比selenium慢。
瀏覽:45日期:2022-08-04 16:42:25
問題描述
因?yàn)樵谂廊〉木W(wǎng)站需要賬號(hào)登陸,不方便公開。因此我只能這樣大致性的咨詢,實(shí)在抱歉。
我需要爬一個(gè)目標(biāo)網(wǎng)站的數(shù)據(jù),發(fā)現(xiàn)在點(diǎn)擊下一頁時(shí)候,網(wǎng)址并沒有改變.通過源碼確定是使用了js外加ajax的樣子.通過chrome的控制臺(tái),捕獲到點(diǎn)擊下一頁時(shí)候,向指定地址發(fā)送了一條帶多個(gè)參數(shù)的get指令。
原先采用selenium+phantomjs的方式暴力無腦方式爬取,一個(gè)頁面大概5S左右就能獲取,實(shí)際用瀏覽器打開也是這個(gè)速度。為了爬取大量的數(shù)據(jù),準(zhǔn)備改用多線程+直接requests.get目標(biāo)地址的方式來采集,但是發(fā)現(xiàn)采集速度非常的慢,從5S降到的20s左右。
請教下,出現(xiàn)這樣現(xiàn)象的原因可能是什么?我該如何解決?請指教
問題解答
回答1:抱歉 浪費(fèi)了各位的時(shí)間- -是我開始測試的時(shí)候,周圍有人再下迅雷,網(wǎng)絡(luò)炸了。抱歉 抱歉
上一條:python - 使用pandas的resample報(bào)錯(cuò)下一條:python - 相當(dāng)于分組數(shù)據(jù)的合并,兩個(gè)列表生成dataframe,但長度不同
相關(guān)文章:
1. angular.js - Angular路由和express路由的組合使用問題2. 網(wǎng)絡(luò)傳輸協(xié)議 - 以下三種下載方式有什么不同?如何用python模擬下載器下載?3. 我在centos容器里安裝docker,也就是在容器里安裝容器,報(bào)錯(cuò)了?4. 表單提交驗(yàn)證,沒反應(yīng),求老師指點(diǎn)5. 我的html頁面一提交,網(wǎng)頁便顯示出了我的php代碼,求問是什么原因?6. 如何修改phpstudy的phpmyadmin放到其他地方7. tp6表單令牌8. node.js - gulp文件監(jiān)聽的問題9. php - mysql中,作為主鍵的字段,用int類型,是不是比用char類型的效率更高?10. java 排序的問題
排行榜

熱門標(biāo)簽