HDFS に保存された lucene インデックス ディレクトリを読み取る方法、つまり、HDFS に保存されたインデックスの IndexReader を取得する方法。IndexReader はマップ タスクで開かれます。
次のようなもの: IndexReader リーダー = IndexReader.open("hdfs/path/to/index/directory");
ありがとう、アキル
検索目的で HDFS に保存されている Lucene インデックスを開きたい場合は、うまくいきません。私の知る限り、検索操作を可能にする HDFS のディレクトリの実装はありません。これが当てはまる理由の 1 つは、HDFS が、Lucene で発生する小さなランダム読み取りではなく、大きなブロックの順次読み取り用に最適化されているためです。
Nutch プロジェクトには、IndexReader の作成に使用できる HDFSDirectory の実装がありますが、機能するのは削除操作のみです。Nutch は HDFSDirectory のみを使用してドキュメントの重複排除を実行します。
Katta プロジェクトは、あなたが探しているものかもしれないと思います。私はそれを自分で使用したことはありませんが、最近これらの種類のソリューションを研究しており、これは法案に合っているようです.
これは、シャード インデックスを使用した lucene の分散バージョンです。