文章詳情頁
python - Scrapy如何得到原始的start_url
瀏覽:137日期:2022-06-27 15:45:21
問題描述
Scrapy爬蟲時,由于重定向或是其他原因,會導致原始的start_url發生改變,怎樣才能得到原始的start_url?
def start_requests(self): start_url = ’your_scrapy_start_url’ yield Request(start_url, self.parse) def parse(self, response): item = YourItem() item[’start_url’] = 原始請求的start_url yield item
問題解答
回答1:參考文章:Scrapy爬蟲常見問題總結
利用Request中的meta參數傳遞信息
def start_requests(self): start_url = ’your_scrapy_start_url’ yield Request(start_url, self.parse, meta={’start_url’:start_url}) def parse(self, response): item = YourItem() item[’start_url’] = response.meta[’start_url’] yield item
相關文章:
1. android - 安卓做前端,PHP做后臺服務器 有什么需要注意的?2. mysql - ubuntu開啟3306端口失敗,有什么辦法可以解決?3. javascript - 從mysql獲取json數據,前端怎么處理轉換解析json類型4. mysql - C#連接數據庫時一直這一句出問題int i = cmd.ExecuteNonQuery();5. mysql replace 死鎖6. extra沒有加載出來7. 求救一下,用新版的phpstudy,數據庫過段時間會消失是什么情況?8. thinkPHP5中獲取數據庫數據后默認選中下拉框的值,傳遞到后臺消失不見。有圖有代碼,希望有人幫忙9. javascript - 微信網頁開發從菜單進入頁面后,按返回鍵沒有關閉瀏覽器而是刷新當前頁面,求解決?10. django - Python error: [Errno 99] Cannot assign requested address
排行榜
