python - 如何爬取跳轉(zhuǎn)網(wǎng)站的數(shù)據(jù)
問(wèn)題描述
目前在學(xué)習(xí)一些爬蟲(chóng)的知識(shí),對(duì)于一些復(fù)雜的網(wǎng)站使用selenium進(jìn)行爬取。碰到一個(gè)問(wèn)題,我需要爬取的工單網(wǎng)站(不知道密碼)需要先通過(guò)登錄一個(gè)鑒權(quán)系統(tǒng),然后鑒權(quán)系統(tǒng)頁(yè)面點(diǎn)擊其中的工單系統(tǒng)連接,就會(huì)自動(dòng)免登錄跳轉(zhuǎn)到工單系統(tǒng)網(wǎng)站,這種系統(tǒng)的數(shù)據(jù)我該如何使用爬蟲(chóng)進(jìn)行抓取?以下是鑒權(quán)系統(tǒng)selenium拿到關(guān)于工單系統(tǒng)的html
<a href='http://www.aoyou183.cn/link-test001' target='_blank' rel='link-test001' data='1' datasrc='工單系統(tǒng)|||/files/link/test001.gif|||new|||/link-test001'> <img src='http://www.aoyou183.cn/files/link/test001.gif' alt='工單系統(tǒng)' align='absmiddle'><span>工單系統(tǒng)</span></a>
問(wèn)題解答
回答1:用firefox的擴(kuò)展selenium ide錄制一遍操作。然后導(dǎo)出為python文件。改改運(yùn)行就可以了。
建議你去讀讀蟲(chóng)師寫(xiě)的書(shū)。
回答2:例如使用requests庫(kù)作為爬蟲(chóng)的話,先創(chuàng)建session(),A登錄,B是跳轉(zhuǎn)的頁(yè)面即可。
T=requests.session()A=T.post(url=url,data=data)B=T.get(url=url)
創(chuàng)建的T就代表存儲(chǔ)的cookie,會(huì)一直保留
相關(guān)文章:
1. MySQL數(shù)據(jù)庫(kù)中文亂碼的原因2. angular.js - 關(guān)于$apply()3. dockerfile - 我用docker build的時(shí)候出現(xiàn)下邊問(wèn)題 麻煩幫我看一下4. nignx - docker內(nèi)nginx 80端口被占用5. angular.js使用$resource服務(wù)把數(shù)據(jù)存入mongodb的問(wèn)題。6. angular.js - Ionic 集成crosswalk后生成的apk在android4.4.2上安裝失敗???7. mysql - 新浪微博中的關(guān)注功能是如何設(shè)計(jì)表結(jié)構(gòu)的?8. dockerfile - [docker build image失敗- npm install]9. css - C#與java開(kāi)發(fā)Windows程序哪個(gè)好?10. 如何解決Centos下Docker服務(wù)啟動(dòng)無(wú)響應(yīng),且輸入docker命令無(wú)響應(yīng)?
