hadoop - 2 つのデータセットで Hadoop を操作する

Question

私はHadoopで作業しており、2つのデータセットでいくつかの相互関係を機能させようとしていますが、これが最良のシナリオです。データセットをメモリにロードし、マップ関数で他のデータセットと交差させることができますが、データセットが RAM メモリに対して大きすぎる場合、それは解決策ではありません。どう思いますか?

回答ありがとうございます。これらを試して、最適な解決策を確認します。

score 0 · Accepted Answer

分散キャッシュは小さなデータセットに適しており、メモリにキャッシュすることを検討してください。あなたが述べたように、データが大きい場合、分散キャッシュはオプションではありません。

Hadoop フレームワークでは大規模なデータセットを並べ替えることができますが、いくつかの手順に従う必要がある場合があり、要件の 1 つは、結合を行う前に入力データセットを並べ替える必要があることです。これには Apache Hive を活用することを検討してください。Hive が除外されている場合、このリンクに記載されている手順は、大規模なデータセットの開始に役立ちます。

Hadoop Map/Reduce で複数のマッパーの Map Side join を構成する

hadoop - 2 つのデータセットで Hadoop を操作する

3 に答える 3

Related

Reference