文章詳情頁
python - scrapy抓取知網(wǎng)response的內(nèi)容重復(fù)
瀏覽:84日期:2022-06-27 08:47:44
問題描述
遍歷請求翻頁的url
for i in range(3): yield Request('http:xx/page/%s'%str(i),callback=self.parse_page)
結(jié)果response請求成功 但是每次內(nèi)容都一樣的沒變化都是第一次請求時的內(nèi)容,但是用postman分別請求分頁的url就沒有這問題。= = 是被ban了嗎 之前就不會這樣
問題解答
回答1:那就要分析一下用postman或者瀏覽器訪問時請求的header頭和用scrapy請求頭有什么區(qū)別
回答2:被反爬識別到了
回答3:看下控制臺打印的log,看看是否正確抓取了下一頁2017-06-29 09:26:13 [scrapy] DEBUG: Scraped from <200 http:xx/page/x>,注意最后一個x(http:xx/page/x)是否是變化的
相關(guān)文章:
1. vim里的高亮javascript的javascript.vim 已經(jīng)放到syntax里了,但是不行。2. angular.js - ng-file-upload 如何實現(xiàn)多圖片上傳3. android - xml的drawable作背景,是否會產(chǎn)生錯誤4. python - pip install出現(xiàn)下面圖中的報錯 什么原因?5. 我何時應(yīng)該在Java中使用JFrame.add(component)和JFrame.getContentPane()。add(component)6. angular.js - angularJs ngRoute怎么在路由傳遞空字符串及用ng-switch取得7. 輸入地址報以下截圖錯誤,怎么辦?8. node.js - node中MYSQL的異步問題9. javascript - 求助一個關(guān)于indexedDB的問題10. javascript - ie11以下單擊打開不了file,雙擊可以。求解?
排行榜

熱門標(biāo)簽