文章詳情頁

python - Scrapy如何得到原始的start_url

瀏覽：137日期：2022-06-27 15:45:21

問題描述

Scrapy爬蟲時，由于重定向或是其他原因，會導致原始的start_url發生改變，怎樣才能得到原始的start_url?

def start_requests(self): start_url = ’your_scrapy_start_url’ yield Request(start_url, self.parse) def parse(self, response): item = YourItem() item[’start_url’] = 原始請求的start_url yield item

問題解答

回答1：

參考文章：Scrapy爬蟲常見問題總結

利用Request中的meta參數傳遞信息

def start_requests(self): start_url = ’your_scrapy_start_url’ yield Request(start_url, self.parse, meta={’start_url’:start_url}) def parse(self, response): item = YourItem() item[’start_url’] = response.meta[’start_url’] yield item

Python 編程

上一條：python - 使用TensorFlow創建邏輯回歸模型訓練結果為nan下一條：正則表達式 - 在python中怎么匹配IP地址

相關文章：

1. android - 安卓做前端，PHP做后臺服務器有什么需要注意的？2. mysql - ubuntu開啟3306端口失敗,有什么辦法可以解決？3. javascript - 從mysql獲取json數據，前端怎么處理轉換解析json類型4. mysql - C#連接數據庫時一直這一句出問題int i = cmd.ExecuteNonQuery();5. mysql replace 死鎖6. extra沒有加載出來7. 求救一下，用新版的phpstudy，數據庫過段時間會消失是什么情況？8. thinkPHP5中獲取數據庫數據后默認選中下拉框的值，傳遞到后臺消失不見。有圖有代碼，希望有人幫忙9. javascript - 微信網頁開發從菜單進入頁面后，按返回鍵沒有關閉瀏覽器而是刷新當前頁面，求解決？10. django - Python error: [Errno 99] Cannot assign requested address

排行榜

					
					javascript - 如何獲取未來元素的父元素在頁面中所有相同元素中是第幾個?
java - svn導下來的項目，web-inf下怎么沒有lib文件呀？
java - log4j和slf4j 【配置有知道的么】
extra沒有加載出來
javascript - pluploader這個上傳插件能異步上傳嗎
求救一下，用新版的phpstudy，數據庫過段時間會消失是什么情況？
css - ionic中的柵格布局如何讓文字內容多少不同的每一列中的內容都能垂直居中？
javascript - 我的站點貌似被別人克隆了， google 搜索特定文章，除了域名不一樣，其他的都一樣，如何解決？
node.js - mongo TTL 數據過期不刪除
css - width設置為100%之后列表無法居中
javascript - 微信網頁開發從菜單進入頁面后，按返回鍵沒有關閉瀏覽器而是刷新當前頁面，求解決？
				

熱門標簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

python - Scrapy如何得到原始的start_url