solr - Nutch：データの読み取りとメタデータの追加

Question

私は最近、apachenutchを探し始めました。セットアップを行うことができ、興味のあるWebページを簡単にクロールできました。このデータの読み方がよくわかりません。基本的に、各ページのデータをいくつかのメタデータ（今のところいくつかのランダムデータ）に関連付けてローカルに保存し、後で検索（セマンティック）に使用します。同じためにsolrまたはluceneを使用する必要がありますか？私はこれらすべてに不慣れです。私の知る限り、NutchはWebページのクロールに使用されています。クロールされたデータにメタデータを追加するなど、いくつかの追加機能を実行できますか？

score 3 · Accepted Answer

便利なコマンド。

クロールを開始します

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

クロールされたURLの統計を取得します

bin/nutch readdb crawl/crawldb -stats

セグメントの読み取り（Webページからすべてのデータを取得します）

bin/nutch readseg -dump crawl/segments/* segmentAllContent

セグメントの読み取り（テキストフィールドのみを取得）

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -     noparse -noparsedata

リンクのソースURLとアンカーテキストの両方を含む、各URLへの既知のリンクのすべてのリストを取得します。

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent

クロールされたすべてのURLを取得します。また、フェッチされたかどうか、フェッチされた時間、変更された時間などの他の情報も提供します。

bin/nutch readdb crawl/crawldb/ -dump crawlContent

第二部について。つまり、新しいフィールドを追加するには、index-extraプラグインを使用するか、カスタムプラグインを作成する予定です。

参照：

これとこれ

solr - Nutch：データの読み取りとメタデータの追加

1 に答える 1

Related

Reference