文章詳情頁

python爬蟲實例之獲取動漫截圖

瀏覽：2日期：2022-07-23 17:59:22

引言

之前有些無聊（呆在家里實在玩的膩了），然后就去B站看了一些python爬蟲視頻，沒有進行基礎的理論學習，也就是直接開始實戰，感覺跟背公式一樣的進行爬蟲，也算行吧，至少還能爬一些東西，hhh。我今天來分享一個我的爬蟲代碼。

正文

話不多說，直接上完整代碼

ps：這個代碼有些問題每次我爬到fate的圖片它就給我報錯，我只好用個try來跳過了，如果有哪位大佬能幫我找出錯誤并給與糾正，我將不勝感激

import requests as rimport reimport osimport timefile_name = '動漫截圖'if not os.path.exists(file_name): os.mkdir(file_name) for p in range(1,34): print('--------------------正在爬取第{}頁內容------------------'.format(p)) url = ’https://www.acgimage.com/shot/recommend?page={}’.format(p) headers = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'} resp = r.get(url, headers=headers) html = resp.text images = re.findall(’data-original='(.*?)' ’, html) names =re.findall(’title='(.*?)'’, html) #print(images) #print(names) dic = dict(zip(images, names)) for image in images: time.sleep(1) print(image, dic[image]) name = dic[image] #name = image.split(’/’)[-1] i = r.get(image, headers=headers).content try: with open(file_name + ’/’ + name + ’.jpg’ , ’wb’) as f: f.write(i) except FileNotFoundError: continue

先導入要使用的庫

import requests as rimport reimport osimport time

然后去分析要去爬的網址： https://www.acgimage.com/shot/recommend

下圖是網址的內容：

python爬蟲實例之獲取動漫截圖

好了 url已經確定

下面去尋找headers

python爬蟲實例之獲取動漫截圖

找到user-agent 將其內容復制到headers中

第一步就完成了

下面是代碼展示

url = ’https://www.acgimage.com/shot/recommend?page={}’.format(p)headers = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36' }

然后檢索要爬的圖片內容

python爬蟲實例之獲取動漫截圖

從上圖就可以找到圖片的位置：data-origina=后面的內容以及圖片的名字：title=后面的內容

然后用正則表達式re來檢索就行了

images = re.findall(’data-original='(.*?)' ’, html)names =re.findall(’title='(.*?)'’, html)

最后將其保存就好了

i = r.get(image, headers=headers).contentwith open(file_name + ’/’ + name + ’.jpg’ , ’wb’) as f: f.write(i)

還有就是一些細節了

比如換頁

第一頁網址：

https://www.acgimage.com/shot/recommend

第二頁網址：https://www.acgimage.com/shot/recommend?page=2

然后將page后面的數字改動就可以跳到相應的頁面

換頁的問題也就解決了

or p in range(1,34): url = ’https://www.acgimage.com/shot/recommend?page={}’.format(p)

以及將爬到的圖片放到自己建立的文件zh

使用了os庫

file_name = '動漫截圖' if not os.path.exists(file_name): os.mkdir(file_name)

以及為了不影響爬取的網站使用了sleep函數

雖然爬取的速度慢了一些

但是這是應遵守的道德

time.sleep(1)

以上這就是我的爬蟲過程

還是希望大佬能解決我的錯誤之處

萬分感謝

總結

到此這篇關于python爬蟲實例之獲取動漫截圖的文章就介紹到這了,更多相關python爬蟲獲取動漫截圖內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：python代碼如何注釋下一條：Python模擬登入的N種方式(建議收藏)

相關文章：

1. asp(vbs)Rs.Open和Conn.Execute的詳解和區別及&H0001的說明2. PHP設計模式中工廠模式深入詳解3. CSS hack用法案例詳解4. ThinkPHP5實現JWT Token認證的過程(親測可用)5. 用css截取字符的幾種方法詳解（css排版隱藏溢出文本）6. asp中response.write("中文")或者js中文亂碼問題7. ASP.NET MVC遍歷驗證ModelState的錯誤信息8. PHP session反序列化漏洞超詳細講解9. ASP 信息提示函數并作返回或者轉向10. .NET中lambda表達式合并問題及解決方法

排行榜

					
					JavaScript canvas實現文字時鐘
Python telnet登陸功能實現代碼
django模型動態修改參數,增加 filter 字段的方式
你可能真沒用過這些 IDEA 插件(建議收藏)
springboot對數據庫密碼加密的實現
在Android中使用WebSocket實現消息通信的方法詳解
idea修改背景顏色樣式的方法
java實現圖形化界面計算器
MindTerm 3.0 發布－基于Java的SSH客戶端
新版PHP極大的增強功能和性能
windows服務器使用IIS時thinkphp搜索中文無效問題