lucene - Nutchインデックスからコンテンツを読み取る方法は？

Question

Nutchを使用してWebページをクロールしてインデックスを作成することはできますが、インデックスを読み取ってそこからデータを抽出する方法がわかりません。

誰かが私にインデックスを読むためのいくつかの便利なツールを紹介してもらえますか？

中国語アナライザーとプラグインを追加しIndexFilterたいので、インデックスを読んでプラグインを検証したいと思います。また、Javaを使用してクロールしたデータを使用していくつかのプロセスを実行したいと思います。

score 0 · Accepted Answer

ルークツールを使用して、ナットインデックスを参照します。インデックスのダンプオプションを使用すると、インデックス全体のxmlファイルを作成できます。コードを介してそれを行う必要がある場合は、luceneを学習する必要があります。

クロールされたコンテンツを読み取るには、nutchセグメントリーダーを使用します。

score 0 · Accepted Answer

提供されている読み取りコマンドを次のように使用できます

bin/nutch readseg xxx

コンテンツを読みます。

これがお役に立てば幸いです。

2 に答える 2