1

通常のHadoop HDFS、つまり入力分割計算、実際のデータフローと比較して、Amazon EMRのケースで異なるInputFormatを使用したNativeS3FileSystemの内部動作について洞察を持っている人はいますか? S3 で Amazon EMR を使用する際のベスト プラクティスと考慮すべき点は何ですか?

ありがとう、

4

1 に答える 1

1

重要なのは、HDFS の代わりに S3N を使用することを計画している場合は、データの局所性の利点が失われ、仕事に大きな影響を与える可能性があることを知っておく必要があるということです。

一般に、S3N を使用する場合、ジョブフローには 2 つの選択肢があります。

  • HDFS の代替として S3 からデータをストリーミングします。これは、データセット全体に常にアクセスする必要がある場合に役立ちますが、説明したように、パフォーマンスの制約が生じる可能性があります。
  • S3 から HDFS にデータをコピーします。ある時点でデータの小さなサンプルにアクセスするだけでよい場合は、HDFS にコピーして、データの局所性を維持する必要があります。

私の経験から、大規模なジョブの場合、分割計算が非常に重くなる可能性があることにも気付きました。また、入力分割を計算するためだけに CPU が 100% になるケースも見てきました。その理由は、Hadoop レイヤーが各ファイルのサイズを個別に取得しようとするためだと思いFileSystemます。S3N に保存されているファイルの場合、すべてのファイルに対して API 呼び出しを送信する必要があるため、多くの入力ファイルを含む大きな仕事がある場合は、時間を過ごすことができます。

詳細については、誰かが Amazon フォーラムで同様の質問をした次の記事を参照することをお勧めします。

于 2013-01-30T05:53:33.770 に答える