文章詳情頁

Java爬蟲技術框架之Heritrix框架詳解

瀏覽：2日期：2022-08-28 14:41:40

Heritrix是一個由Java開發的開源Web爬蟲系統，用來獲取完整的、精確的站點內容的深度復制，

具有強大的可擴展性，運行開發者任意選擇或擴展各個組件，實現特定的抓取邏輯。

一、Heritrix介紹

Heritrix采用了模塊化的設計，用戶可以在運行時選擇要用的模塊。它由核心類（core classes）和插件模塊（pluggable modules）構成。

核心類可以配置，但不能被覆蓋，插件模塊可以由第三方模塊取代。所以我們就可以用實現了特定抓取邏輯的第三方模塊來取代默認的插件模塊，從而滿足自己的抓取需要。

CrawlController（下載控制器）整個下載過程的總控制者，整個抓取工作的起點，決定整個抓取任務的開始和結束。每個URI都有一個獨立的線程，它從邊界控制器（Frontier）獲取新的URI，然后傳遞給Processor chains（處理鏈）經過一系列Processor（處理器）處理。

Java爬蟲技術框架之Heritrix框架詳解

二、Heritrix架構

中央控制器 CrawlController 是核心組件，決定了整個抓取任務的開始與結束。

用戶在 Heritrix web UI 控制臺設置抓取任務后，heritrix首先構造XMLSettingsHandler對象，然后調用CrawlController的構造函數，構造一個CrawlController實例并初始化，這樣，CrawlController就具備了運行條件。

此時，只需調用 requestCrawlStart()方法就可以啟動線程池和Frontier，以便向線程池中工作線程提供抓取用的URL鏈接。

Java爬蟲技術框架之Heritrix框架詳解

Heritrix 3.x 的框架主要分為 Engine 和 Component

三、一些API

org.archive.crawler.framework.CrawlJob;

org.archive.crawler.postprocessor.CandidatesProcessor;org.archive.modules.CrawlURI;

等等

抓取任務CrawlOrder類：是整個抓取工作的起點。一次抓取任務包括許多屬性，建立一個任務的方式有很多種，最簡單的一種就是根據默認的order.xml來配置。

中央控制器CrawlController：該類決定著抓取任務的開始和結束。它包含以下幾個組件：

CrawlOrder：該類保存了order.xml的屬性配置；

CrawlScope：決定當前抓取范圍；

ProcessorChainList：處理器鏈；

Frontier：一次抓取任務需要設定一個Frontier，以此來不斷為其每個線程提供URI；

ToePool：它是一個線程池，管理了所有在當前任務中抓取過的Host名稱和Server名稱。

中央控制器CrawlControllr的類結構如圖所示：

Java爬蟲技術框架之Heritrix框架詳解

Frontier鏈接制造工廠：它表示一種為線程提供鏈接的工具，通過一些特定的算法來決定哪個鏈接將接下來被送入處理器鏈中，同時，它本身也負責一定的日志和狀態報告功能。

BdbFrontier類：它是用Berkeley DB 實現的，Berkeley DB 就是一個HashTable，它能夠按“key/value”方式保存數據，能夠為應用程序提供可伸縮的、高性能的、有事務保護功能的嵌入式數據庫。

Heritrix的多線程ToeThread和ToePool：要想更快更有效地抓取網頁，必須采用多線程，Heritrix則采用多線程機制，提供了一個標準的線程池ToePool，用于管理所有的抓取線程。

處理器鏈 Processor：包括PreProcessor、Fetcher、Extractor、Writer、PostProcessor五種。

四、應用

作為爬蟲模塊，爬取數據

Java爬蟲技術框架之Heritrix框架詳解

到此這篇關于爬蟲技術框架之Heritrix框架詳解的文章就介紹到這了,更多相關爬蟲技術框架 Heritrix內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Java

上一條：Java遍歷文件夾及子目錄代碼實例下一條：Java lastIndexOf類使用方法原理解析

相關文章：

1. XML入門的常見問題(一)2. 低版本IE正常運行HTML5+CSS3網站的3種解決方案3. 不同瀏覽器對XML的解析是不同的4. ASP 信息提示函數并作返回或者轉向5. IE6/IE7/IE8/IE9中tbody的innerHTML不能賦值的完美解決方案6. 使用XSL將XML文檔中的CDATA注釋輸出為HTML文本7. asp使用Weekday函數計算項目的結束時間8. 讀寫xml文件的2個小函數9. asp讀取xml文件和記數10. 告別AJAX實現無刷新提交表單

排行榜

					
					教你在 IntelliJ IDEA 中使用 VIM插件的詳細教程
低版本IE正常運行HTML5+CSS3網站的3種解決方案
axios和ajax的區別點總結
Android PC端用ADB抓取指定應用日志實現步驟
Django 中的Timezone 處理操作
IDEA 2020版本最新破解教程可激活至2089年(推薦)
django實現將修改好的新模型寫入數據庫
IntelliJ IDEA 2020常用配置設置大全(方便干活)
IntelliJ IDEA2021.2.3破解，IDEA 2021.2.x激活破解，2022激活持續更新
Spring Cloud Feign 自定義配置(重試、攔截與錯誤碼處理) 代碼實踐
Java DriverManager.getConnection()獲取數據庫連接