0

S3 に毎日または毎時またはランダムにデータを書き込むアプリと、S3 からローカル HBase にデータを読み取る別のアプリがあります。最後の更新からアップロードされた最後のファイルが何であるかを確認し、その後ファイルを読み取る、つまり、ファイルを段階的にコピーする方法はありますか?

たとえば、1 日目: App1 がファイル 1、2、3 をフォルダー 1 に書き込み、App2 がこれらの 3 つのファイルを HBase に読み取ります。4 日目: App1 はファイル 4 と 5 をフォルダー 1 に、6、7、8 をフォルダー 2 に書き込みます。App2 は、フォルダー 1 から 4 & 5 を読み取り、次にフォルダー 2 から 6,7,8 を読み取る必要があります。

ありがとう

4

1 に答える 1

0

LastModified ヘッダー フィールドを使用して、作成日に基づいてデータを処理できます。これには、すでに処理されたアイテムと新しいアイテムを格納するクライアント側の組み込みロジックが必要です。処理した日付を保存するだけで、それ以降はすべて新しいものと見なされます。

例:

s3cmd ls s3://test
2012-07-24 18:29  36303234   s3://test/dl.pdf

ファイルの先頭にある日付を参照してください。

于 2012-07-24T18:51:18.257 に答える