私はHadoopで作業しており、2つのデータセットでいくつかの相互関係を機能させようとしていますが、これが最良のシナリオです。データセットをメモリにロードし、マップ関数で他のデータセットと交差させることができますが、データセットが RAM メモリに対して大きすぎる場合、それは解決策ではありません。どう思いますか?
回答ありがとうございます。これらを試して、最適な解決策を確認します。
私はHadoopで作業しており、2つのデータセットでいくつかの相互関係を機能させようとしていますが、これが最良のシナリオです。データセットをメモリにロードし、マップ関数で他のデータセットと交差させることができますが、データセットが RAM メモリに対して大きすぎる場合、それは解決策ではありません。どう思いますか?
回答ありがとうございます。これらを試して、最適な解決策を確認します。
分散キャッシュは小さなデータ セットに適しており、メモリにキャッシュすることを検討してください。あなたが述べたように、データが大きい場合、分散キャッシュはオプションではありません。
Hadoop フレームワークでは大規模なデータ セットを並べ替えることができますが、いくつかの手順に従う必要がある場合があり、要件の 1 つは、結合を行う前に入力データ セットを並べ替える必要があることです。これには Apache Hive を活用することを検討してください。Hive が除外されている場合、このリンクに記載されている手順は、大規模なデータ セットの開始に役立ちます。