亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術(shù)文章
文章詳情頁

網(wǎng)頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取?

瀏覽:112日期:2022-09-03 13:50:21

問題描述

用Python27些爬蟲,想要爬取一些網(wǎng)站,我需要判斷網(wǎng)頁是否可以爬取,第一反應(yīng)是通過狀態(tài)碼來判斷,但是寫完運行后發(fā)現(xiàn)有許多目標(biāo)網(wǎng)站訪問它不存在的頁面時會返回一個404錯誤頁面,可他的狀態(tài)碼卻是200,結(jié)果爬回來好多根本就不存在的頁面。這個本來是網(wǎng)站設(shè)置的問題,但是現(xiàn)在也不能用狀態(tài)碼來判斷了,請問還有什么方法可以正確判斷一個頁面是不是404該不該爬?

問題解答

回答1:

首先, 200 狀態(tài)碼,是網(wǎng)絡(luò)連接狀態(tài), 所以你只判斷200并不能滿足所有網(wǎng)站。

其次, 寫爬蟲嘛, 你應(yīng)該實際去看看這些網(wǎng)站的規(guī)則是什么,可以先人工判斷下, 找找規(guī)律, 比如看看網(wǎng)頁返回內(nèi)容是不是有什么特點之類的。

回答2:

做個網(wǎng)頁內(nèi)容的判斷,如果他網(wǎng)頁里面沒有內(nèi)容就直接返回。

回答3:

就算是頁面狀態(tài)碼200,返回的404頁面,應(yīng)該和正常能爬取的頁面html有不同的html元素吧,根據(jù)有沒有特定的html元素來判斷是不是404頁面也行的

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 日韩黄色一级 | 性做久久久久久久久25的美女 | 日韩另类在线 | 亚洲综合色就色手机在线观看 | 黄色的视频免费观看 | 在线麻豆国产传媒60在线观看 | 国产 欧美 日产中文 | 久久精品国产99久久无毒不卡 | 偷看老师裙底无内裤福利图片 | 久久精品免费电影 | 亚洲精品欧美在线 | 欧美成人香蕉在线观看 | 看真人视频一一级毛片 | 国产一区二区三区四区五区六区 | 亚洲精品午夜在线观看 | 日本一级免费 | 性生活大片免费看 | 97国产在线播放 | 网红思瑞一区二区三区 | 日批日韩在线观看 | 免费观看全黄做爰 | 国产一区在线视频观看 | 久久综合中文字幕一区二区三区 | 91短视频社区在线观看 | 日本一级毛片冲田杏梨 | 深夜a级毛片免费视频 | 亚洲第一成年免费网站 | 日欧毛片 | 国产在线观看精品一区二区三区91 | 中国成熟xxx视频 | 韩国一级做a爱性色毛片 | 成人污| 亚洲欧美一区二区三区在线播放 | 多人性活动 | 日韩免费三级 | 外国一级黄色 | 久久精品是免费100 久久精品首页 | 在线免费一区二区 | 成人欧美一区二区三区黑人免费 | 鸥美黄色片| 欧美亚洲国产精品久久久 |