文章詳情頁

node.js - 關(guān)于Node爬蟲爬小說的問題

瀏覽：92日期：2024-07-16 18:02:09

問題描述

最近因?yàn)闆]小說看，也無聊，就想著用Node來寫爬蟲爬書下來，弄了好幾天有些問題。爬小說異步的話章節(jié)不是順序排列的，所以用了sync-request進(jìn)行同步操作，我爬的是筆趣閣這個網(wǎng)站上的書，現(xiàn)在由于剛學(xué)，只是做了爬單本書的。我發(fā)現(xiàn)在爬取的時候，會假死掉，停在那不動了，而且每次的章節(jié)數(shù)不同，我就加了個十秒的timeout超時，但是還是會出現(xiàn)這種假死的情況。后來百度了下，說網(wǎng)站是有防止爬蟲的東東的，具體我也不太清楚==，我就想，那我就加個間隔咯，我讓他每請求十次就休息20秒鐘，再重新爬。結(jié)果！！！還是會假死，233333。所以現(xiàn)在有點(diǎn)不明白為啥了，想求教一下，給點(diǎn)思路。拜托各位~~

下面是我請求的代碼，具體章節(jié)列表我在另一個js里面爬出來寫在json里面了，這邊是直接請求每個鏈接的了:

就和這個一樣，爬了一段時間就這樣了，就跟死機(jī)了似得，后面不管等多久都沒動靜，設(shè)置的超時啥的也沒有反應(yīng)

問題解答

回答1：

這兩天一直在弄這個問題，起初是以為是sync-request的問題，后來換了別的還是一樣。我就猜可能是ip網(wǎng)站給屏蔽了還是什么的，后來中午吃飯和同事閑聊，順便就請教了下，他們也就是說大概就這個問題。既然如此，我就去弄了些免費(fèi)的代理IP，然后在請求的時候，只要是請求超時或者報(bào)錯就立馬切換一個IP地址去請求。這樣下來，昨天特地爬了一個很大的小說，今天上班過來一看，全部爬下來了，沒有出現(xiàn)問題，哈哈。不過免費(fèi)的代理IP很多都用不了，所以在這上面浪費(fèi)了部分時間。現(xiàn)在要開始看看怎么爬多本書了，↖(^ω^)↗

上一條：node.js - mongo insert一條記錄，但某些數(shù)據(jù)未插入下一條：node.js - fetch跨域提交post請求，后臺node接受不到ctx.request.body?

相關(guān)文章：

1. javascript - js中遞歸與for循環(huán)同時發(fā)生的時候，代碼的執(zhí)行順序是怎樣的？2. python - linux怎么在每天的凌晨2點(diǎn)執(zhí)行一次這個log.py文件3. php如何獲取訪問者路由器的mac地址4. android - 鍵盤遮擋RecyclerView5. 如何分別在Windows下用Winform項(xiàng)模板+C#，在MacOSX下用Cocos Application項(xiàng)目模板+Objective-C實(shí)現(xiàn)一個制作游戲的空的黑窗口？6. javascript - jQuery each 方法第三個參數(shù)args 如何解釋？7. javascript - 在 vue里面用import引入js文件，結(jié)果為undefined8. java - new + 類名，一定需要申明一個對象嗎？9. 小程序怎么加外鏈，語句怎么寫！求救新手，開文檔沒發(fā)現(xiàn)10. javascript - vue-resource中如何設(shè)置全局的timeout？

排行榜

					
					python - linux怎么在每天的凌晨2點(diǎn)執(zhí)行一次這個log.py文件
php如何獲取訪問者路由器的mac地址
android - 鍵盤遮擋RecyclerView
如何分別在Windows下用Winform項(xiàng)模板+C#，在MacOSX下用Cocos Application項(xiàng)目模板+Objective-C實(shí)現(xiàn)一個制作游戲的空的黑窗口？
javascript - js中遞歸與for循環(huán)同時發(fā)生的時候，代碼的執(zhí)行順序是怎樣的？
小程序怎么加外鏈，語句怎么寫！求救新手，開文檔沒發(fā)現(xiàn)
java - new + 類名，一定需要申明一個對象嗎？
javascript -  在 vue里面用import引入js文件，結(jié)果為undefined
javascript - jQuery each 方法第三個參數(shù)args 如何解釋？
python沒入門，請教一個問題
javascript - vue-resource中如何設(shè)置全局的timeout？
				

熱門標(biāo)簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

node.js - 關(guān)于Node爬蟲爬小說的問題