1

Java コードによって生成されたファイルがローカルに書き込まれ、Data Pipeline によって S3 にコピーされるという問題が発生しています。エラーはファイルサイズに言及しています。

マルチパートアップロードが必要な場合、パイプラインがそれを理解するだろうと私は考えていたでしょう. マルチパートアップロードを実際に使用するようにパイプラインを構成する方法があるのだろうか。それ以外の場合、S3 に依存しない現在の Java コードは、S3 に直接書き込むか、以前と同じようにしてからマルチパート アップロードを使用する必要があるためです。実際、コードは S3 に直接書き込むだけで、心配する必要はないと思いますアップロード中。

パイプラインがマルチパート アップロードを使用できるかどうか誰か教えてもらえますか。そうでない場合は、正しいアプローチがプログラムを S3 に直接書き込むか、ローカル ストレージに書き込み続けてから、同じプログラム内で別のプログラムを呼び出すかを提案できますか?マルチパートアップロードを行うパイプラインは?

4

2 に答える 2

1

AWS サポートに基づく答えは、実際には 5 GB のファイルを直接 S3 にアップロードできないということです。また、現在、データ パイプラインが「大きなファイルをアップロードしようとしているため、これを処理するために何か特別なことを行います」と言う方法はありません。それは単に失敗します。

これは将来変更される可能性があります。

于 2015-02-01T09:10:32.070 に答える
0

Data Pipeline CopyActivity は、4GB を超えるファイルをサポートしていません。 http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-copyactivity.html

これは、S3 が各ファイル部分のプットに対して課す 5GB の制限を下回っています。

AWS CLI または S3cmd (古い) をラップする独自のスクリプトを作成する必要があります。このスクリプトは、シェル アクティビティとして実行できます。

S3 は追加操作をサポートしていないため、S3 への直接書き込みは問題になる可能性があります。フォルダーに複数の小さなオブジェクトを何らかの方法で書き込むことができない限りです。

于 2015-01-31T14:56:16.137 に答える