文章詳情頁
python - scrapy 處理 文章 分頁的內容
瀏覽:98日期:2022-08-03 16:15:10
問題描述
如一篇文章有2-3頁,然后想把這些內容頁爬下來,拼接成一頁,然后再放入數據庫。文章url如:article_1.html,article_2.htmlitem有:item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內容。大概怎么寫呢?
問題解答
回答1:找到分頁接口url
回答2:找到那個下一頁的鏈接,加入到爬取url列表中
回答3:可以在rules里面寫正則自動掃描符合的url
相關文章:
1. javascript - npm下載的模塊不完整是什么問題?2. java - Spring事務回滾問題3. apache - 本地搭建wordpress權限問題4. c++ - 如何在python的阻塞的函數中獲取變量值5. node.js - 我想讓最后進入數據庫的數據,在前臺最先展示,如何做到?6. wordpress - Nginx中禁止訪問txt,robots.txt文件例外,規則該怎么寫?7. 剛放到服務器的項目出現這中錯誤,有高手指點嗎8. python - django 按日歸檔統計訂單求解9. python 操作mysql如何經量防止自己的程序在之后被惡意注入(說白了就是問一下python防注入的一些要點)10. mysql - 面試題:如何把login_log表轉換成last_login表?
排行榜
