Java MapReduce を使用して、Hadoop の 2 つのデータ セット間でクロス積の高価な操作を実行したいと考えています。
たとえば、データ セット A とデータ セット B のレコードがあり、出力でデータ セット A の各レコードをデータ セット B の各レコードと一致させたいとします。これの出力サイズは になると思いますが|A| * |B|
、とにかくやりたいです。
Pig にはCROSS
あるようですが、高レベルでどのように実装されているかはわかりません。たぶん、ソースコードを見に行くでしょう。
コードを探すのではなく、この問題にどのように取り組むべきかを大まかに知りたいだけです。