数千の顧客名、別名、ビジネス名などの詳細が Lucene インデックスにインデックス化されています (インデックスは HDFS には保存されません)。
HDFS に大量 (>100M) の個人データがあり、Lucene インデックスを使用して個人データをスキャンしたいのですが、現在、HDFS からのデータ処理に PIG を使用しています。
データを抽出する PIG ジョブを実行し、並列で Lucene インデックスに対してクエリを実行できるかどうかを確認しようとしています (カスタムで作成された UDF を使用することもできます)。 PIG ジョブ (Lucene クエリの後、一致が見つかった場合は、一致したドキュメント ID が必要です)。
PIG を使用することは可能ですか? または、このためにカスタムの map-reduce ジョブを作成する必要がありますか? または他の提案はありますか?
ありがとう。