通常のHadoop HDFS、つまり入力分割計算、実際のデータフローと比較して、Amazon EMRのケースで異なるInputFormatを使用したNativeS3FileSystemの内部動作について洞察を持っている人はいますか? S3 で Amazon EMR を使用する際のベスト プラクティスと考慮すべき点は何ですか?
ありがとう、
通常のHadoop HDFS、つまり入力分割計算、実際のデータフローと比較して、Amazon EMRのケースで異なるInputFormatを使用したNativeS3FileSystemの内部動作について洞察を持っている人はいますか? S3 で Amazon EMR を使用する際のベスト プラクティスと考慮すべき点は何ですか?
ありがとう、
重要なのは、HDFS の代わりに S3N を使用することを計画している場合は、データの局所性の利点が失われ、仕事に大きな影響を与える可能性があることを知っておく必要があるということです。
一般に、S3N を使用する場合、ジョブフローには 2 つの選択肢があります。
私の経験から、大規模なジョブの場合、分割計算が非常に重くなる可能性があることにも気付きました。また、入力分割を計算するためだけに CPU が 100% になるケースも見てきました。その理由は、Hadoop レイヤーが各ファイルのサイズを個別に取得しようとするためだと思いFileSystem
ます。S3N に保存されているファイルの場合、すべてのファイルに対して API 呼び出しを送信する必要があるため、多くの入力ファイルを含む大きな仕事がある場合は、時間を過ごすことができます。
詳細については、誰かが Amazon フォーラムで同様の質問をした次の記事を参照することをお勧めします。