亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

python - 如何在scrapy中帶cookie訪問?

瀏覽:71日期:2022-09-05 15:34:56

問題描述

簡單的通過scrapy訪問雪球都報錯,我知道要先訪問一次雪球,需要cookie信息才能真正打開連接。scrapy據說可以不用在意cookie,會自動獲取cookie。我按照這個連接在middleware里已經啟用cookie,http://stackoverflow.com/ques...,但為什么還是會返回404錯誤?搜索了幾天都沒找到答案。郁悶啊,求幫忙給個簡單代碼如何訪問,謝謝了

class XueqiuSpider(scrapy.Spider): name = 'xueqiu' start_urls = 'https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=1&size=1' headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.8','Connection': 'keep-alive','Host': 'www.zhihu.com','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.109 Safari/537.36' } def __init__(self, url = None):self.user_url = url def start_requests(self):yield scrapy.Request( url = self.start_urls, headers = self.headers, meta = {’cookiejar’: 1 }, callback = self.request_captcha) def request_captcha(self,response):print response

錯誤日志。

2017-03-04 12:42:02 [scrapy.core.engine] INFO: Spider opened2017-03-04 12:42:02 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2017-03-04 12:42:02 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023********Current UserAgent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6************2017-03-04 12:42:12 [scrapy.downloadermiddlewares.cookies] DEBUG: Received cookies from: <200 https://xueqiu.com/robots.txt>Set-Cookie: aliyungf_tc=AQAAAGFYbBEUVAQAPSHDc8pHhpYZKUem; Path=/; HttpOnly2017-03-04 12:42:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://xueqiu.com/robots.txt> (referer: None)********Current UserAgent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6************2017-03-04 12:42:12 [scrapy.downloadermiddlewares.cookies] DEBUG: Received cookies from: <404 https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=1&size=1>Set-Cookie: aliyungf_tc=AQAAAPTfyyJNdQUAPSHDc8KmCkY5slST; Path=/; HttpOnly2017-03-04 12:42:12 [scrapy.core.engine] DEBUG: Crawled (404) <GET https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=1&size=1> (referer: None)2017-03-04 12:42:12 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404 https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=1&size=1>: HTTP status code is not handled or not allowed2017-03-04 12:42:12 [scrapy.core.engine] INFO: Closing spider (finished)2017-03-04 12:42:12 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

問題解答

回答1:

又試了一下.. 確實不需要登錄哦.. 是我想多了... 直接先請求一下xueqiu.com,拿到cookie后再請求一下API的地址就可以了.. 原來如此..

==============羞恥的分割線=============

經我驗證,你需要登錄...

import scrapyimport hashlibfrom scrapy.http import FormRequest, Requestclass XueqiuScrapeSpider(scrapy.Spider): name = 'xueqiu_scrape' allowed_domains = ['xueqiu.com'] def start_requests(self):m = hashlib.md5()m.update(b'your password') # 在這里填入你的密碼password = m.hexdigest().upper()form_data={ 'telephone': 'your account', # 在這里填入你的用戶名 'password': password, 'remember_me': str(), 'areacode': '86',}print(form_data)return [FormRequest( url='https://xueqiu.com/snowman/login', formdata=form_data, meta={'cookiejar': 1}, callback=self.loged_in )] def loged_in(self, response):# print(response.url)return [Request( url='https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=1&size=1', meta={'cookiejar': response.meta['cookiejar']}, callback=self.get_result, )] def get_result(self, response):print(response.body)

另外,網站確實對User-Agent進行了驗證,可以在settings.py中進行設置,當然自己寫在爬蟲文件里也可以。密碼是MD5加密后的字符串。哦對,補充一點,因為我是用手機注冊的,所以form_data是這些字段,如果你是其他方式,只需要用Chrome工具看一下POST請求有哪些參數,自己修改一下form_data的內容就行了。

回答2:

哈哈,謝謝咯,解決了幾天的困惑。之前也通過request來做不需要登錄,貼下代碼,

session = requests.Session()session.headers = { ’User-Agent’: ’Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36’}session.get(’https://xueqiu.com’)for page in range(1,100): url = ’https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=%s&size=1’ % page print url r = session.get(url)#print r.json().list a = r.text

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国外精品视频在线观看免费 | 久久国产免费福利永久 | 亚洲色图 p | 美女国产一区 | 中文在线观看视频 | 成年人视频黄色 | 亚洲爱婷婷色婷婷五月 | 日韩经典欧美一区二区三区 | 亚洲精品一区二区三区在线看 | 在线视频久 | 亚洲国产精品综合久久2007 | 成人免费一区二区三区在线观看 | 美女免费视频网站 | 一级黄色免费看 | 国产成人精品一区二三区在线观看 | 又爽又刺激的欧美毛片 | 成本人h片3d动漫网站在线看 | 91久久国产成人免费观看资源 | 国产xxxxxx久色视频在 | 免费jizz在在线播放国产 | 久久精品亚洲欧美日韩久久 | 性欧美一级毛片欧美片 | 成人在线视屏 | 色婷婷久久综合中文久久一本 | 青青免费视频在线 | 日本高清视频一区二区 | 欧美视频在线播放观看免费福利资源 | 欧美一级性生活视频 | 92午夜影院 | 免费高清资源黄网站在线观看 | 免费看操片 | 日韩字幕无线乱码 | 国产黄色一级毛片 | 中文字幕日韩欧美一区二区三区 | 国产黄网在线观看 | 91精品手机国产在线观 | 色综合天天综合网国产人 | 久久精品国产久精国产果冻传媒 | 精品视频免费播放 | a级小视频 | 免费观看全黄做爰 |