亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術(shù)文章
文章詳情頁

分布式爬蟲 - scrapy-redis 分布式系統(tǒng)?

瀏覽:94日期:2024-07-11 09:26:03

問題描述

現(xiàn)在可以從網(wǎng)上下載這些代碼,怎么進(jìn)行部署和運(yùn)行代碼從github上下載了關(guān)于分布式的代碼,不知道怎么用,求各位大神指點(diǎn)下。。。下面是網(wǎng)址https://github.com/rolando/scrapy-redis環(huán)境已經(jīng)按照上面的配置好了,但不知道如何實(shí)現(xiàn)分布式。分布式我是這樣理解的,有一個(gè)redis服務(wù)器,從一個(gè)網(wǎng)頁上獲取url種子,并將url種子放到redis服務(wù)器了,然后將這些url種子分配給其他機(jī)器。中間存在調(diào)度方面的問題,以及服務(wù)器和機(jī)器間的通信。

謝謝。。。

問題解答

回答1:

感覺這個(gè)不是一兩句話可以描述清楚 的。

我之前參考的這篇博文,希望對你有幫助。

說說我個(gè)人的理解吧。

scrapy使用改良之后的python自帶的collection.deque來存放待爬取的request,該怎么讓兩個(gè)以上的Spider共用這個(gè)deque呢?

待爬隊(duì)列都不能共享,分布式就是無稽之談。scrapy-redis提供了一個(gè)解決方法,把collection.deque換成redis數(shù)據(jù)庫,多個(gè)爬蟲從同一個(gè)redis服務(wù)器存放要爬取的request,這樣就能讓多個(gè)spider去同一個(gè)數(shù)據(jù)庫里讀取,這樣分布式的主要問題就解決了.

注意:并不是換了redis來存放request,scrapy就能直接分布式了!

scrapy中跟待爬隊(duì)列直接相關(guān)的就是調(diào)度器Scheduler。

參考scrapy的結(jié)構(gòu)分布式爬蟲 - scrapy-redis 分布式系統(tǒng)?

它負(fù)責(zé)對新的request進(jìn)行入列操作,取出下一個(gè)要爬取的request等操作。所以,換了redis之后,其他組件都要改動(dòng)。

所以,我個(gè)人的理解就是,在多個(gè)機(jī)器上部署相同的爬蟲,分布式部署redis,參考地址我的博客,比較簡單。而這些工作,包括url去重,就是已經(jīng)寫好的scrapy-redis框架的功能。

參考地址在這里,你可以去下載example看看具體的實(shí)現(xiàn)。我最近也在搞這個(gè)scrapy-redis,等我部署好了在更新的這個(gè)答案。

你有新的進(jìn)展可以分享出來交流。

回答2:

@韋軒 您好,我看這段評(píng)論在15.10.11,請問您現(xiàn)在是否有結(jié)果了?能否推薦一些您的博客,謝謝您~可以聯(lián)系我[email protected]

相關(guān)文章:
主站蜘蛛池模板: 欧美一级www片免费观看 | 亚洲一区欧美日韩 | 亚洲精品 欧美 | 亚洲综合欧美日韩 | 激情五月色综合色婷婷 | 97精品视频在线观看 | 二区三区不卡不卡视频 | 免费观看黄的小视频 | 国产成人综合怡春院精品 | 成年人午夜网站 | 欧美videos另类hd肥妇色 | 久久成人免费网站 | 欧美黄色大全 | 亚洲系列_1页_mmyy11 | 国产尤物视频在线 | 91精品国产综合久 | 成 人 黄 色视频免费播放 | 深夜释放自己黄瓜视频 | 久久中文字幕久久久久 | 色视频免费观看高清完整 | 国产三级在线免费观看 | 那种视频在线观看 | 日韩激情视频在线 | 欧美黄色tv | 久久99爰这里有精品国产 | 午夜男人一级毛片免费 | 国产精品五月色六月婷婷 | 欧美特黄一级aa毛片 | 欧美在线一级毛片视频 | 99久久国产综合精品成人影院 | 黄色一级毛片免费 | 欧美狠狠入鲁的视频极速 | 日本黄色片免费观看 | 爱爱视频在线免费观看 | 手机看片国产高清 | 91亚洲精品成人一区 | 成人午夜激情 | 一区卡二区卡三区卡视频 | 达达兔午夜起神影院在线观看麻烦 | 女色在线观看免费视频 | 国产777 |