1

数千の顧客名、別名、ビジネス名などの詳細が Lucene インデックスにインデックス化されています (インデックスは HDFS には保存されません)。

HDFS に大量 (>100M) の個人データがあり、Lucene インデックスを使用して個人データをスキャンしたいのですが、現在、HDFS からのデータ処理に PIG を使用しています。

データを抽出する PIG ジョブを実行し、並列で Lucene インデックスに対してクエリを実行できるかどうかを確認しようとしています (カスタムで作成された UDF を使用することもできます)。 PIG ジョブ (Lucene クエリの後、一致が見つかった場合は、一致したドキュメント ID が必要です)。

PIG を使用することは可能ですか? または、このためにカスタムの map-reduce ジョブを作成する必要がありますか? または他の提案はありますか?

ありがとう。

4

1 に答える 1

1

そのためには間違いなく UDF が必要です。象鳥の lucene ローダーは良い出発点です。https://github.com/kevinweil/elephant-bird/tree/master/pigで確認してください

于 2013-04-30T08:03:39.470 に答える