文章詳情頁

網(wǎng)頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？

瀏覽：112日期：2022-09-03 13:50:21

問題描述

用Python27些爬蟲，想要爬取一些網(wǎng)站，我需要判斷網(wǎng)頁是否可以爬取，第一反應(yīng)是通過狀態(tài)碼來判斷，但是寫完運行后發(fā)現(xiàn)有許多目標(biāo)網(wǎng)站訪問它不存在的頁面時會返回一個404錯誤頁面，可他的狀態(tài)碼卻是200，結(jié)果爬回來好多根本就不存在的頁面。這個本來是網(wǎng)站設(shè)置的問題，但是現(xiàn)在也不能用狀態(tài)碼來判斷了，請問還有什么方法可以正確判斷一個頁面是不是404該不該爬？

問題解答

回答1：

首先， 200 狀態(tài)碼，是網(wǎng)絡(luò)連接狀態(tài)，所以你只判斷200并不能滿足所有網(wǎng)站。

其次，寫爬蟲嘛，你應(yīng)該實際去看看這些網(wǎng)站的規(guī)則是什么，可以先人工判斷下，找找規(guī)律，比如看看網(wǎng)頁返回內(nèi)容是不是有什么特點之類的。

回答2：

做個網(wǎng)頁內(nèi)容的判斷，如果他網(wǎng)頁里面沒有內(nèi)容就直接返回。

回答3：

就算是頁面狀態(tài)碼200，返回的404頁面，應(yīng)該和正常能爬取的頁面html有不同的html元素吧，根據(jù)有沒有特定的html元素來判斷是不是404頁面也行的

Python 編程

上一條：python - Flask內(nèi)如何跳轉(zhuǎn)至其他頁面。下一條：Python做掃描，發(fā)包速度實在是太慢了，有優(yōu)化的方案嗎？

相關(guān)文章：

1. 求救一下，用新版的phpstudy，數(shù)據(jù)庫過段時間會消失是什么情況？2. javascript - 在 vue里面用import引入js文件，結(jié)果為undefined3. python沒入門，請教一個問題4. php如何獲取訪問者路由器的mac地址5. html5 - input type=’file’ 上傳獲取的fileList對象怎么存儲于瀏覽器？6. 小程序怎么加外鏈，語句怎么寫！求救新手，開文檔沒發(fā)現(xiàn)7. 求教一個mysql建表分組索引問題8. node.js - 用nodejs 的node-xlsx模塊去讀取excel中的數(shù)據(jù)，可是讀取出來的日期是數(shù)字，請問該如何讀取日期呢？9. sql語句如何按or排序取出記錄10. javascript - vue-resource中如何設(shè)置全局的timeout？

排行榜

					
					python沒入門，請教一個問題
javascript - vue-resource中如何設(shè)置全局的timeout？
求救一下，用新版的phpstudy，數(shù)據(jù)庫過段時間會消失是什么情況？
html - 爬蟲時出現(xiàn)“DNS lookup failed”，打開網(wǎng)頁卻沒問題，這是什么情況？
php如何獲取訪問者路由器的mac地址
小程序怎么加外鏈，語句怎么寫！求救新手，開文檔沒發(fā)現(xiàn)
sql語句如何按or排序取出記錄
javascript -  在 vue里面用import引入js文件，結(jié)果為undefined
node.js - 用nodejs 的node-xlsx模塊去讀取excel中的數(shù)據(jù)，可是讀取出來的日期是數(shù)字，請問該如何讀取日期呢？
java 線程監(jiān)控 重啟線程 觀察者模式的問題的問題
求教一個mysql建表分組索引問題
				

熱門標(biāo)簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

網(wǎng)頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？