私は最近、apachenutchを探し始めました。セットアップを行うことができ、興味のあるWebページを簡単にクロールできました。このデータの読み方がよくわかりません。基本的に、各ページのデータをいくつかのメタデータ(今のところいくつかのランダムデータ)に関連付けてローカルに保存し、後で検索(セマンティック)に使用します。同じためにsolrまたはluceneを使用する必要がありますか?私はこれらすべてに不慣れです。私の知る限り、NutchはWebページのクロールに使用されています。クロールされたデータにメタデータを追加するなど、いくつかの追加機能を実行できますか?
質問する
2606 次
1 に答える
3
便利なコマンド。
クロールを開始します
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
クロールされたURLの統計を取得します
bin/nutch readdb crawl/crawldb -stats
セグメントの読み取り(Webページからすべてのデータを取得します)
bin/nutch readseg -dump crawl/segments/* segmentAllContent
セグメントの読み取り(テキストフィールドのみを取得)
bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate - noparse -noparsedata
リンクのソースURLとアンカーテキストの両方を含む、各URLへの既知のリンクのすべてのリストを取得します。
bin/nutch readlinkdb crawl/linkdb/ -dump linkContent
クロールされたすべてのURLを取得します。また、フェッチされたかどうか、フェッチされた時間、変更された時間などの他の情報も提供します。
bin/nutch readdb crawl/crawldb/ -dump crawlContent
第二部について。つまり、新しいフィールドを追加するには、index-extraプラグインを使用するか、カスタムプラグインを作成する予定です。
参照:
于 2012-05-29T06:47:34.323 に答える