文章詳情頁

python - 用scrapy寫爬蟲,發(fā)送請求后,服務器全都直接返回202,該怎么辦呢?

瀏覽：122日期：2022-06-27 13:36:39

問題描述

我爬取的是中國裁判文書網(wǎng),之前還是好好的,我發(fā)送請求,服務器返回200,然后我處理body中的數(shù)據(jù)

但是一個星期之前,突然所有的請求都返回202,然后response body里也是空的,完全拿不到數(shù)據(jù),我在回調(diào)函數(shù)中阻塞等待while(response.status == 202)就sleep也沒用,status并不會變化

該怎么辦呢?

我使用了crwalera的ip代理服務,之前有段時間也是202,但是過了一天就好了,但這次已經(jīng)持續(xù)了一個星期了,很奇怪

我覺得就是目標網(wǎng)站負載太大,所以采用異步的方式發(fā)送數(shù)據(jù),但是我在scrapy里有怎么正確地收到他的數(shù)據(jù)呢?

問題解答

回答1：

這種情況通常是違規(guī)抓取，服務端進行了防抓取限制。如果是合法抓取的話，可以和內(nèi)容方面溝通，看看是不是有誤傷，如果是非法抓取，還建議不要這樣做了，嚴重的話可能有被起訴的風險

回答2：

被防采集了，可以試試換ip或?qū)ふ曳啦傻南拗坡┒?/p>

Python 編程

上一條：Python Selenium WebDriver如何刷新當前頁面下一條：python - 網(wǎng)站對賬號訪問頻率限制

相關(guān)文章：

1. javascript - nodejs 使用request-promise發(fā)送請求后返回結(jié)果無法獲取。

排行榜

					
					求救一下，用新版的phpstudy，數(shù)據(jù)庫過段時間會消失是什么情況？
html - 爬蟲時出現(xiàn)“DNS lookup failed”，打開網(wǎng)頁卻沒問題，這是什么情況？
django - nginx無法使用80端口（它會自動跳轉(zhuǎn)到nginx的歡迎界面），其他端口可以使用
java - idea創(chuàng)建多modules項目后，tomcat啟動失敗
javascript - 我的站點貌似被別人克隆了， google 搜索特定文章，除了域名不一樣，其他的都一樣，如何解決？
javascript - 求幫助 , ATOM不顯示界面!!!!
php工具箱配置第二個vhost主機時不生效，報錯You don’t have permission
php - 微信開發(fā)驗證服務器有效性
php -  mysql 模糊搜索問題
javascript -  在 vue里面用import引入js文件，結(jié)果為undefined
[python2]local variable referenced before assignment問題
				

熱門標簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

python - 用scrapy寫爬蟲,發(fā)送請求后,服務器全都直接返回202,該怎么辦呢?