文章詳情頁

python 爬取小說并下載的示例

瀏覽：86日期：2022-07-02 18:47:56

代碼

import requestsimport timefrom tqdm import tqdmfrom bs4 import BeautifulSoup''' Author: Jack Cui Wechat: https://mp.weixin.qq.com/s/OCWwRVDFNslIuKyiCVUoTA'''def get_content(target): req = requests.get(url = target) req.encoding = ’utf-8’ html = req.text bf = BeautifulSoup(html, ’lxml’) texts = bf.find(’div’, id=’content’) content = texts.text.strip().split(’xa0’*4) return contentif __name__ == ’__main__’: server = ’https://www.xsbiquge.com’ book_name = ’詭秘之主.txt’ target = ’https://www.xsbiquge.com/15_15338/’ req = requests.get(url = target) req.encoding = ’utf-8’ html = req.text chapter_bs = BeautifulSoup(html, ’lxml’) chapters = chapter_bs.find(’div’, id=’list’) chapters = chapters.find_all(’a’) for chapter in tqdm(chapters): chapter_name = chapter.string url = server + chapter.get(’href’) content = get_content(url) with open(book_name, ’a’, encoding=’utf-8’) as f: f.write(chapter_name) f.write(’n’) f.write(’n’.join(content)) f.write(’n’)

下載效果：

python 爬取小說并下載的示例

可以看到，小說內(nèi)容保存到“詭秘之主.txt”中，小說一共 1416 章，下載需要大約 20 分鐘，每秒鐘大約下載 1 個章節(jié)。

下載完成，實際花費了 27 分鐘。

20 多分鐘下載一本小說，你可能感覺太慢了。想提速，可以使用多進程，大幅提高下載速度。如果使用分布式，甚至可以1秒鐘內(nèi)下載完畢。

但是，我不建議這樣做。

我們要做一個友好的爬蟲，如果我們?nèi)ヌ崴伲敲次覀冊L問的服務(wù)器也會面臨更大的壓力。

以我們這次下載小說的代碼為例，每秒鐘下載 1 個章節(jié)，服務(wù)器承受的壓力大約 1qps，意思就是，一秒鐘請求一次。

如果我們 1 秒同時下載 1416 個章節(jié)，那么服務(wù)器將承受大約 1416 qps 的壓力，這還是僅僅你發(fā)出的并發(fā)請求數(shù)，再算上其他的用戶的請求，并發(fā)量可能更多。

如果服務(wù)器資源不足，這個并發(fā)量足以一瞬間將服務(wù)器“打死”，特別是一些小網(wǎng)站，都很脆弱。

過大并發(fā)量的爬蟲程序，相當(dāng)于發(fā)起了一次 CC 攻擊，并不是所有網(wǎng)站都能承受百萬級別并發(fā)量的。

所以，寫爬蟲，一定要謹慎，勿給服務(wù)器增加過多的壓力，滿足我們的獲取數(shù)據(jù)的需求，這就夠了。

你好，我也好，大家好才是真的好。

以上就是python 爬取小說并下載的示例的詳細內(nèi)容，更多關(guān)于python 爬取小說下載的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：python 實現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)添加、查詢與更新的示例代碼下一條：Python常用GUI框架原理解析匯總

相關(guān)文章：

1. Python多線程操作之互斥鎖、遞歸鎖、信號量、事件實例詳解2. Python常用GUI框架原理解析匯總3. XML入門的常見問題(一)4. Django程序的優(yōu)化技巧5. Jsp中request的3個基礎(chǔ)實踐6. idea給項目打war包的方法步驟7. jsp EL表達式詳解8. 怎樣才能用js生成xmldom對象，并且在firefox中也實現(xiàn)xml數(shù)據(jù)島？9. IntelliJ IDEA 統(tǒng)一設(shè)置編碼為utf-8編碼的實現(xiàn)10. idea設(shè)置自動導(dǎo)入依賴的方法步驟

排行榜

					
					idea給項目打war包的方法步驟
Python常用GUI框架原理解析匯總
IntelliJ IDEA設(shè)置自動提示功能快捷鍵的方法
Django程序的優(yōu)化技巧
idea設(shè)置自動導(dǎo)入依賴的方法步驟
idea修改背景顏色樣式的方法
IntelliJ IDEA 統(tǒng)一設(shè)置編碼為utf-8編碼的實現(xiàn)
怎樣才能用js生成xmldom對象，并且在firefox中也實現(xiàn)xml數(shù)據(jù)島？
Jsp中request的3個基礎(chǔ)實踐
XML入門的常見問題(一)
jsp EL表達式詳解