5

私は最近、apachenutchを探し始めました。セットアップを行うことができ、興味のあるWebページを簡単にクロールできました。このデータの読み方がよくわかりません。基本的に、各ページのデータをいくつかのメタデータ(今のところいくつかのランダムデータ)に関連付けてローカルに保存し、後で検索(セマンティック)に使用します。同じためにsolrまたはluceneを使用する必要がありますか?私はこれらすべてに不慣れです。私の知る限り、NutchはWebページのクロールに使用されています。クロールされたデータにメタデータを追加するなど、いくつかの追加機能を実行できますか?

4

1 に答える 1

3

便利なコマンド。

クロールを開始します

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

クロールされたURLの統計を取得します

bin/nutch readdb crawl/crawldb -stats

セグメントの読み取り(Webページからすべてのデータを取得します)

bin/nutch readseg -dump crawl/segments/* segmentAllContent

セグメントの読み取り(テキストフィールドのみを取得)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -     noparse -noparsedata

リンクのソースURLとアンカーテキストの両方を含む、各URLへの既知のリンクのすべてのリストを取得します。

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent

クロールされたすべてのURLを取得します。また、フェッチされたかどうか、フェッチされた時間、変更された時間などの他の情報も提供します。

bin/nutch readdb crawl/crawldb/ -dump crawlContent

第二部について。つまり、新しいフィールドを追加するには、index-extraプラグインを使用するか、カスタムプラグインを作成する予定です。

参照:

これこれ

于 2012-05-29T06:47:34.323 に答える