4

Nutchを使用してWebページをクロールしてインデックスを作成することはできますが、インデックスを読み取ってそこからデータを抽出する方法がわかりません。

誰かが私にインデックスを読むためのいくつかの便利なツールを紹介してもらえますか?

中国語アナライザーとプラグインを追加しIndexFilterたいので、インデックスを読んでプラグインを検証したいと思います。また、Javaを使用してクロールしたデータを使用していくつかのプロセスを実行したいと思います。

4

2 に答える 2

0

ルークツールを使用して、ナットインデックスを参照します。インデックスのダンプオプションを使用すると、インデックス全体のxmlファイルを作成できます。コードを介してそれを行う必要がある場合は、luceneを学習する必要があります。

クロールされたコンテンツを読み取るには、nutchセグメントリーダーを使用します。

于 2012-04-23T03:11:00.470 に答える
0

提供されている読み取りコマンドを次のように使用できます

bin/nutch readseg xxx

コンテンツを読みます。

これがお役に立てば幸いです。

于 2012-04-24T09:07:59.403 に答える