Apache Nutch 1.3 學習筆記目錄
本文檔由 開卷有益360 分享于2011-10-20 17:51
Nutch是一個開源的網頁抓取工具,主要用于收集網頁數據,然后對其進行分析,建立索引,以提供相應的接口來對其網頁數據進行查詢的一套工具。其底層使用了Hadoop來做分布式計算與存儲,索引使用了Solr分布式索引框架來做,Solr是一個開源的全文索引框架,從Nutch 1.3開始,其集成了這個索引架構。
下載文檔
收藏