文章詳情頁

python分布式爬蟲中消息隊列知識點詳解

瀏覽：76日期：2022-07-04 10:48:39

當排隊等待人數(shù)過多的時候，我們需要設(shè)置一個等待區(qū)防止秩序混亂，同時再有新來的想要排隊也可以呆在這個地方。那么在python分布式爬蟲中，消息隊列就相當于這樣的一個區(qū)域，爬蟲要進入這個區(qū)域找尋自己想要的資源，當然這個是一定的次序的，不然數(shù)據(jù)獲取就會出現(xiàn)重復(fù)。就下來我們就python分布式爬蟲中的消息隊列進行詳細解釋，小伙伴們可以進一步了解一下。

實現(xiàn)分布式爬取的關(guān)鍵是消息隊列，這個問題以消費端為視角更容易理解。你的爬蟲程序部署到很多臺機器上，那么他們怎么知道自己要爬什么呢？總要有一個地方存儲了他們需要爬取的url吧，這樣他們才能工作。

假設(shè)有1萬個url需要爬取，而你有100個爬蟲程序部署在10臺機器上，每臺10個爬蟲程序在運行，一個url被分給爬蟲程序后，其他爬蟲不能再獲得這個url，不然，就重復(fù)爬取了，理解吧，分布式爬蟲的關(guān)鍵是怎么把任務(wù)分給這些爬蟲。

有些促銷活動的現(xiàn)場會進行抽獎活動，工作人員捧著一個透明的箱子，參與活動的人從箱子的小口處把手伸進去隨機拿出一張折疊的紙條，這種模式與消息隊列十分相似。消息隊列就好比這個抽獎的箱子，消費端的爬蟲程序就好比參與活動的顧客，爬蟲從消息隊列里拿出一個url任務(wù)，然后進行爬取，不同于抽獎活動時一個人只能拿一次，分布式爬蟲允許爬蟲在結(jié)束一個爬蟲任務(wù)后繼續(xù)從消息隊列里獲取任務(wù)。

使用redis的隊列做消息隊列

如果你只是簡單的寫一個分布式爬蟲，那么使用redis的隊列就可以了，它完全可以作為消息隊列來使用，下面的代碼是生產(chǎn)端的代碼示例

import redisr = redis.Redis(host=’127.0.0.1’, port=6379,password=’yourpassword’, db=1)# 生產(chǎn)10個url任務(wù)for i in range(10): r.lpush(’url_queue’, i)

相信看完以上的代碼示例后，小伙伴們已經(jīng)學(xué)會用redis創(chuàng)造一個消息隊列，用來方便爬蟲的獲取數(shù)據(jù)。本篇是以生產(chǎn)段的角度寫的代碼

到此這篇關(guān)于python分布式爬蟲中消息隊列知識點詳解的文章就介紹到這了,更多相關(guān)python分布式爬蟲中的消息隊列是什么內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：python中用ctypes模擬點擊的實例講解下一條：Docker容器化部署Python應(yīng)用過程解析

相關(guān)文章：

1. 如何在jsp界面中插入圖片2. ASP實現(xiàn)加法驗證碼3. python selenium 獲取接口數(shù)據(jù)的實現(xiàn)4. ASP刪除img標簽的style屬性只保留src的正則函數(shù)5. 詳解JSP 內(nèi)置對象request常見用法6. 利用ajax+php實現(xiàn)商品價格計算7. Python matplotlib 繪制雙Y軸曲線圖的示例代碼8. jsp EL表達式詳解9. JSP servlet實現(xiàn)文件上傳下載和刪除10. springboot集成與使用Sentinel的方法

排行榜

					
					IntelliJ IDEA設(shè)置自動提示功能快捷鍵的方法
idea修改背景顏色樣式的方法
Python matplotlib 繪制雙Y軸曲線圖的示例代碼
IntelliJ IDEA 統(tǒng)一設(shè)置編碼為utf-8編碼的實現(xiàn)
IntelliJ IDEA配置Tomcat服務(wù)器的方法
python selenium 獲取接口數(shù)據(jù)的實現(xiàn)
如何在jsp界面中插入圖片
ASP刪除img標簽的style屬性只保留src的正則函數(shù)
ASP實現(xiàn)加法驗證碼
idea打開多個窗口的操作方法
利用ajax+php實現(xiàn)商品價格計算