亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取?

瀏覽:93日期:2022-09-03 13:50:21

問題描述

用Python27些爬蟲,想要爬取一些網站,我需要判斷網頁是否可以爬取,第一反應是通過狀態碼來判斷,但是寫完運行后發現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面,可他的狀態碼卻是200,結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題,但是現在也不能用狀態碼來判斷了,請問還有什么方法可以正確判斷一個頁面是不是404該不該爬?

問題解答

回答1:

首先, 200 狀態碼,是網絡連接狀態, 所以你只判斷200并不能滿足所有網站。

其次, 寫爬蟲嘛, 你應該實際去看看這些網站的規則是什么,可以先人工判斷下, 找找規律, 比如看看網頁返回內容是不是有什么特點之類的。

回答2:

做個網頁內容的判斷,如果他網頁里面沒有內容就直接返回。

回答3:

就算是頁面狀態碼200,返回的404頁面,應該和正常能爬取的頁面html有不同的html元素吧,根據有沒有特定的html元素來判斷是不是404頁面也行的

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 日韩激情视频在线 | 国产欧美在线一区二区三区 | 国产精品大全 | 亚洲女教师 | 中日韩在线视频 | 国产精品日韩一区二区三区 | 伊人一区二区三区 | 国产午夜精品一区二区三区不卡 | 免费三级黄色片 | 国产免费女同性视频网站 | 欧美日韩国产最新一区二区 | 尤物国产精品福利三区 | 青青草在线视频视频 | 在线观看成年人免费视频 | 黄色网址视频在线播放 | 黄色免费播放 | 国产欧美另类久久久精品免费 | 黄色短视频在线观看 | 久久婷婷久久一区二区三区 | 伊人婷婷色香五月综合缴缴情 | 污污的网站免费观看 | 全免费一级毛片在线播放 | 久久中文字幕网站篠田优 | 在线看91 | 久久99精品久久久久久综合 | 日韩欧美一区二区三区视频 | 成年人黄色片视频 | 生活片毛片 | 奇米网久久 | 欧美操美女 | 国产精品特黄一级国产大片 | 久久亚洲精品无码观看不卡 | 免费看又爽又黄禁片视频1000 | 国产做人爱三级视频在线 | 黄色影视大全 | 国产福利在线视频尤物tv | 免费黄视频在线观看 | 成人国产精品免费网站 | 国产人在线成免费视频麻豆 | 亚洲视频 在线观看 | 欧美成人在线影院 |