0

私はHadoopで作業しており、2つのデータセットでいくつかの相互関係を機能させようとしていますが、これが最良のシナリオです。データセットをメモリにロードし、マップ関数で他のデータセットと交差させることができますが、データセットが RAM メモリに対して大きすぎる場合、それは解決策ではありません。どう思いますか?


回答ありがとうございます。これらを試して、最適な解決策を確認します。

4

3 に答える 3

0

分散キャッシュは小さなデータ セットに適しており、メモリにキャッシュすることを検討してください。あなたが述べたように、データが大きい場合、分散キャッシュはオプションではありません。

Hadoop フレームワークでは大規模なデータ セットを並べ替えることができますが、いくつかの手順に従う必要がある場合があり、要件の 1 つは、結合を行う前に入力データ セットを並べ替える必要があることです。これには Apache Hive を活用することを検討してください。Hive が除外されている場合、このリンクに記載されている手順は、大規模なデータ セットの開始に役立ちます。

Hadoop Map/Reduce で複数のマッパーの Map Side join を構成する

于 2013-04-25T15:06:25.317 に答える