文章詳情頁(yè)

python爬蟲請(qǐng)求頭的使用

瀏覽：2日期：2022-07-03 15:01:41

爬蟲請(qǐng)求頭

網(wǎng)頁(yè)獲取：

通過urlopen來進(jìn)行獲取

requset.urlopen(url,data,timeout)

第一個(gè)參數(shù)url即為URL，第二個(gè)參數(shù)data是訪問URL時(shí)要傳送的數(shù)據(jù)，第三個(gè)timeout是設(shè)置超時(shí)時(shí)間。第二三個(gè)參數(shù)是可以不傳送的，data默認(rèn)為空None，timeout默認(rèn)為 socket._GLOBAL_DEFAULT_TIMEOUT第一個(gè)參數(shù)URL是必須要加入的，執(zhí)行urlopen方法之后，返回一個(gè)response對(duì)象，返回信息便保存在這里面

from urllib.request import urlopenurl = 'https://www.baidu.com/'respons = urlopen(url)#最簡(jiǎn)單的爬取情況這樣爬取大部分網(wǎng)頁(yè)無法爬取成功

response對(duì)象：

response.read()read()方法就是讀取文件里的全部?jī)?nèi)容，返回bytes類型

print(type(respons.read()))#結(jié)果為bytes類型所以需要進(jìn)行轉(zhuǎn)碼print(type(respons.read().decode()))#通過decode轉(zhuǎn)碼結(jié)果為str

response.getcode()返回 HTTP的響應(yīng)碼，成功返回200，4服務(wù)器頁(yè)面出錯(cuò)，5服務(wù)器問題

response.geturl()返回返回實(shí)際數(shù)據(jù)的實(shí)際URL，防止重定向問題

response.info()返回服務(wù)器響應(yīng)的HTTP報(bào)頭

Request對(duì)象

Request對(duì)象，由于urlopen參數(shù)可以傳入一個(gè)request請(qǐng)求（可以理解成為再加一步封裝的功能）因?yàn)樵跇?gòu)建請(qǐng)求時(shí)還需要加入好多內(nèi)容，通過構(gòu)建一個(gè)request，服務(wù)器響應(yīng)請(qǐng)求得到應(yīng)答，這樣顯得邏輯上清晰明確

from urllib.request import urlopen,Requestfrom fake_useragent import UserAgent#這個(gè)包可以隨機(jī)生成User-Agenturl = 'https://www.baidu.com/'headers = {'User-Agent':UserAgent().firefox}#生成火狐的request = Request(url,headers=headers)response = urlopen(request)a=response.read().decode()

Get請(qǐng)求

瀏覽器通過GET方法發(fā)出請(qǐng)求爬蟲主要通過get再url中加入請(qǐng)求的參數(shù)，由于中文的需要轉(zhuǎn)碼通過Urllib.parse.urlencode() 針對(duì)多個(gè)參數(shù)進(jìn)行轉(zhuǎn)碼操作輸入格式為字典類型Urllib.parse.quote() 針對(duì)單個(gè)字符串進(jìn)行轉(zhuǎn)碼操作Str格式.format( ) 用于拼接字符串

post請(qǐng)求

一般在需要登錄的地方用的比較多需要在request請(qǐng)求中加如一個(gè)data用來傳入?yún)?shù)參數(shù)的形式要以字典格式通過urllib.parse.urlencode()進(jìn)行轉(zhuǎn)換成字符串形式再通過encode()函數(shù)對(duì)字符串進(jìn)行轉(zhuǎn)碼（默認(rèn)值就可以）

發(fā)送請(qǐng)求/響應(yīng)header頭的含義

名稱含義 Accept 告訴服務(wù)器，客戶端支持的數(shù)據(jù)類型 Accept-Charset 告訴服務(wù)器，客戶端采用的編碼 Accept-Encoding 告訴服務(wù)器，客戶機(jī)支持的數(shù)據(jù)壓縮格式 Accept-Language 告訴服務(wù)器，客戶機(jī)的語(yǔ)言環(huán)境 Host 客戶機(jī)通過這個(gè)頭告訴服務(wù)器，想訪問的主機(jī)名 If-Modified-Since 客戶機(jī)通過這個(gè)頭告訴服務(wù)器，資源的緩存時(shí)間 Referer 客戶機(jī)通過這個(gè)頭告訴服務(wù)器，它是從哪個(gè)資源來訪問服務(wù)器的。（一般用于防盜鏈） User-Agent 客戶機(jī)通過這個(gè)頭告訴服務(wù)器，客戶機(jī)的軟件環(huán)境 Cookie 客戶機(jī)通過這個(gè)頭告訴服務(wù)器，可以向服務(wù)器帶數(shù)據(jù) Refresh 服務(wù)器通過這個(gè)頭，告訴瀏覽器隔多長(zhǎng)時(shí)間刷新一次 Content-Type 服務(wù)器通過這個(gè)頭，回送數(shù)據(jù)的類型 Content-Language 服務(wù)器通過這個(gè)頭，告訴服務(wù)器的語(yǔ)言環(huán)境 Server 服務(wù)器通過這個(gè)頭，告訴瀏覽器服務(wù)器的類型 Content-Encoding 服務(wù)器通過這個(gè)頭，告訴瀏覽器數(shù)據(jù)采用的壓縮格式 Content-Length 服務(wù)器通過這個(gè)頭，告訴瀏覽器回送數(shù)據(jù)的長(zhǎng)度

Ajax請(qǐng)求用于提取動(dòng)態(tài)的頁(yè)面網(wǎng)頁(yè)數(shù)據(jù)根據(jù)拖動(dòng)進(jìn)行顯示通過瀏覽器工具箱，查找包的信息，找到url的規(guī)律進(jìn)行爬取如果無法知道要循環(huán)多少次則規(guī)定一個(gè)死循環(huán)，爬取頁(yè)面為空時(shí)停止循環(huán)也可以通過改變url一次性輸出更多的網(wǎng)頁(yè)信息（只要服務(wù)器允許）

https請(qǐng)求因?yàn)樵谟行g覽器中存在很多證書所以在大部分網(wǎng)頁(yè)爬取的時(shí)候不用改變證書或者添加證書但有些自己寫證書的網(wǎng)站需要進(jìn)行這一步操作https請(qǐng)求=在http上加ssl，http請(qǐng)求是明文直接可以看見，為了安全要加上ssl可以選擇忽略證書進(jìn)行爬取 context = ssl._create_unverified_context()

到此這篇關(guān)于python爬蟲請(qǐng)求頭的使用的文章就介紹到這了,更多相關(guān)python爬蟲請(qǐng)求頭內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python爬蟲簡(jiǎn)單運(yùn)用爬取代理IP的實(shí)現(xiàn)下一條：Python實(shí)現(xiàn)迪杰斯特拉算法并生成最短路徑的示例代碼

相關(guān)文章：

1. 利用CSS3新特性創(chuàng)建透明邊框三角2. spring boot整合redis實(shí)現(xiàn)RedisTemplate三分鐘快速入門3. JSP+Servlet實(shí)現(xiàn)文件上傳到服務(wù)器功能4. React優(yōu)雅的封裝SvgIcon組件示例5. el-table表格動(dòng)態(tài)合并相同數(shù)據(jù)單元格(可指定列+自定義合并)6. 使用css實(shí)現(xiàn)全兼容tooltip提示框7. WML語(yǔ)言的基本情況8. ajax post下載flask文件流以及中文文件名問題9. AJAX實(shí)現(xiàn)數(shù)據(jù)的增刪改查操作詳解【java后臺(tái)】10. springboot基于Redis發(fā)布訂閱集群下WebSocket的解決方案

排行榜

					
					使用Docker的NFS-Ganesha鏡像搭建nfs服務(wù)器的詳細(xì)過程
利用CSS3新特性創(chuàng)建透明邊框三角
spring boot整合redis實(shí)現(xiàn)RedisTemplate三分鐘快速入門
JSP+Servlet實(shí)現(xiàn)文件上傳到服務(wù)器功能
ajax post下載flask文件流以及中文文件名問題
使用css實(shí)現(xiàn)全兼容tooltip提示框
AJAX實(shí)現(xiàn)數(shù)據(jù)的增刪改查操作詳解【java后臺(tái)】
WML語(yǔ)言的基本情況
el-table表格動(dòng)態(tài)合并相同數(shù)據(jù)單元格(可指定列+自定義合并)
React優(yōu)雅的封裝SvgIcon組件示例
如何通過vscode運(yùn)行調(diào)試javascript代碼