Nutchを使用してWebページをクロールしてインデックスを作成することはできますが、インデックスを読み取ってそこからデータを抽出する方法がわかりません。
誰かが私にインデックスを読むためのいくつかの便利なツールを紹介してもらえますか?
中国語アナライザーとプラグインを追加しIndexFilter
たいので、インデックスを読んでプラグインを検証したいと思います。また、Javaを使用してクロールしたデータを使用していくつかのプロセスを実行したいと思います。
ルークツールを使用して、ナットインデックスを参照します。インデックスのダンプオプションを使用すると、インデックス全体のxmlファイルを作成できます。コードを介してそれを行う必要がある場合は、luceneを学習する必要があります。
クロールされたコンテンツを読み取るには、nutchセグメントリーダーを使用します。