2

EC2 の異なる仮想マシン (VM) で 5 つの異なるプロセスを実行して、5 つの異なるファイル (f1.txt、f2.txt、f3.txt、f4.txt、f5.txt) を作成しています。これらの VM はほぼ同時に開始されますが、異なる時間に終了します。

する必要がある

~ これらの 5 つのファイルが書き出されるのを待ちます

~ それらをマージして新しいファイルを作成する egftxt = f1.txt + f2.txt + f3.txt + f4.txt + f5.txt

~ 質問: # 5 つのファイルすべての準備ができて書き出されたことをどのように判断できますか? # s3cat または同様のコマンド ライン ツールを使用して実行できますか? s3cat は Unix の cat と同様のセマンティクスを持っていますか? cat s3://mybucket/f1.txt > s3://mybucket/f.txt cat s3://mybucket/f2.txt >> s3://mybucket/f.txt猫 s3://mybucket/f3.txt >> s3://mybucket/f.txt 猫 s3://mybucket/f4.txt >> s3://mybucket/f.txt 猫 s3://mybucket/f5 .txt >> s3://mybucket/f.txt

Their examples on GitHub didn’t show this use case.

生成された出力ファイル (f.txt) は、ダウンストリーム プロセスで使用されます。


4

2 に答える 2

1

アップロードする5つのファイルに使用しているキーの名前がわかっている場合は、それらをポーリングするだけです。Pythonをご存知の場合、botoはs3とのインターフェースに最適なモジュールであり、上記の処理を簡単に行うことができます。また、s3は、ファイルが完全にアップロードされるまで他のクライアントにファイルが表示されないことを保証するため、部分的なファイルの読み取りについて心配する必要はありません。

Botoは、すでに使用している場合に出力を連結するための優れた方法でもあり、ファイルをチェックします。

于 2012-07-22T20:25:25.020 に答える
0

たくさんのファイルをアップロードしてそれらを分類するのではなく、マルチパートアップロードを使用したいと思います

于 2013-07-05T13:17:20.067 に答える