文章詳情頁
python - scrapy 處理 文章 分頁的內(nèi)容
瀏覽:80日期:2022-08-03 16:15:10
問題描述
如一篇文章有2-3頁,然后想把這些內(nèi)容頁爬下來,拼接成一頁,然后再放入數(shù)據(jù)庫。文章url如:article_1.html,article_2.htmlitem有:item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內(nèi)容。大概怎么寫呢?
問題解答
回答1:找到分頁接口url
回答2:找到那個下一頁的鏈接,加入到爬取url列表中
回答3:可以在rules里面寫正則自動掃描符合的url
相關(guān)文章:
1. 輸入地址報以下截圖錯誤,怎么辦?2. angular.js - angularJs ngRoute怎么在路由傳遞空字符串及用ng-switch取得3. javascript - ie11以下單擊打開不了file,雙擊可以。求解?4. vim里的高亮javascript的javascript.vim 已經(jīng)放到syntax里了,但是不行。5. html5 - video ios不能播放怎么辦?6. android - xml的drawable作背景,是否會產(chǎn)生錯誤7. python - pip install出現(xiàn)下面圖中的報錯 什么原因?8. node.js - node中MYSQL的異步問題9. javascript - 求助一個關(guān)于indexedDB的問題10. 我何時應(yīng)該在Java中使用JFrame.add(component)和JFrame.getContentPane()。add(component)
排行榜

熱門標(biāo)簽