文章詳情頁
java - QQ空間爬蟲總是被封號(hào)
瀏覽:112日期:2022-09-24 17:58:56
問題描述
抓取QQ空間說說但是 總是被封號(hào) 可以給提出一些解決方案嗎?如何既可以快速 又可以不封號(hào)!謝謝啦!
代碼在github上地址https://github.com/20100507/Q...
問題解答
回答1:反爬蟲策略:
1、識(shí)別請(qǐng)求頭,判斷是否是爬蟲2、記錄請(qǐng)求頻率、路徑和訪問ip,判斷是否是爬蟲3、請(qǐng)求參數(shù)中進(jìn)行加密或復(fù)雜加密,增加爬蟲開發(fā)的難度(如淘寶的ua算法)4、復(fù)雜驗(yàn)證碼
應(yīng)對(duì)反爬蟲策略:
1、在爬取過程中,適當(dāng)切換代理ip2、適當(dāng)降低請(qǐng)求頻率3、請(qǐng)求頭模擬成瀏覽器的請(qǐng)求,也就是用戶正常訪問的請(qǐng)求
你的問題,主要可以通過定時(shí)切換ip,或一旦被封再切換ip,來解決,可以考慮去“站大爺”等代理ip網(wǎng)站付費(fèi)獲取,或者去多用幾個(gè)電信賬號(hào),用ASDL撥號(hào)來切換ip。
標(biāo)簽:
qq
上一條:有用ruby抓取新浪微博內(nèi)容的源代碼可共享嗎?下一條:javascript - 為什么公司很少用node做后臺(tái),對(duì)比java,php,python傳統(tǒng)后臺(tái), node的優(yōu)勢(shì)在哪里,適合做什么
相關(guān)文章:
1. docker-machine添加一個(gè)已有的docker主機(jī)問題2. node.js - node express 中ajax post請(qǐng)求參數(shù)接收不到?3. java - springboot 修改默認(rèn)靜態(tài)資源文件讀取路徑4. java - 新手求教,當(dāng)前時(shí)間問題?5. apache - nginx 日志刪除后 重新建一個(gè)文件 就打不了日志了6. java如何高效讀寫10G以上大文件7. java - tomcat服務(wù)經(jīng)常晚上會(huì)掛,求解?8. 關(guān)于js 字符串 轉(zhuǎn)變成 對(duì)應(yīng)變量9. java - 原生CGLib內(nèi)部方法互相調(diào)用時(shí)可以代理,但基于CGLib的Spring AOP卻代理失效,為什么?10. python - Pycharm的Debug用不了
排行榜

熱門標(biāo)簽