文章詳情頁

python - scrapy 處理文章分頁的內容

瀏覽：98日期：2022-08-03 16:15:10

問題描述

如一篇文章有2-3頁，然后想把這些內容頁爬下來，拼接成一頁，然后再放入數據庫。文章url如：article_1.html,article_2.htmlitem有：item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內容。大概怎么寫呢？

問題解答

回答1：

找到分頁接口url

回答2：

找到那個下一頁的鏈接，加入到爬取url列表中

回答3：

可以在rules里面寫正則自動掃描符合的url

Python 編程

上一條：python - 如何讓dataframe A 的一列與dataframe B的一列相減相加結果記到A的c列？下一條：亂碼 - VS2013+PTVS，python編碼問題

相關文章：

1. javascript - npm下載的模塊不完整是什么問題？2. java - Spring事務回滾問題3. apache - 本地搭建wordpress權限問題4. c++ - 如何在python的阻塞的函數中獲取變量值5. node.js - 我想讓最后進入數據庫的數據，在前臺最先展示，如何做到？6. wordpress - Nginx中禁止訪問txt，robots.txt文件例外，規則該怎么寫？7. 剛放到服務器的項目出現這中錯誤，有高手指點嗎8. python - django 按日歸檔統計訂單求解9. python 操作mysql如何經量防止自己的程序在之后被惡意注入（說白了就是問一下python防注入的一些要點）10. mysql - 面試題：如何把login_log表轉換成last_login表？

排行榜

					
					javascript - npm下載的模塊不完整是什么問題？
java - Spring事務回滾問題
python 操作mysql如何經量防止自己的程序在之后被惡意注入（說白了就是問一下python防注入的一些要點）
java - CompletableFuture allof 超時處理
rxjava -  推薦一個Android的組件之間的通信庫
javascript - nodejs實現異步時遇到的一個問題
剛放到服務器的項目出現這中錯誤，有高手指點嗎
javascript - 編程，算法的問題
mysql - 面試題：如何把login_log表轉換成last_login表？
wordpress - Nginx中禁止訪問txt，robots.txt文件例外，規則該怎么寫？
html5 - 在HBuilder中打包Android的apk包出錯，不知道是什么原因。
				

熱門標簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

python - scrapy 處理 文章 分頁的內容

python - scrapy 處理文章分頁的內容