0

"Download File"コンポーネントを使用して、新しいファイルまたはリモートで更新されたファイルのみをダウンロードするにはどうすればよいですか?


次のようなグラフを考えてみましょう。

ここに画像の説明を入力

は次のようにFile Download定義されます。

ここに画像の説明を入力

に多くの *.csv ファイルが${S3_OR_DATA_DIR_LOCATION}あります。毎日1つ追加しています)。

GoodData が新しいファイルと更新されたファイルのみをダウンロードするようにするにはどうすればよいですか? オプションを作ることはそれを"Overwrite existing files" Falseするでしょうか?それとも、新しいファイルのみをダウンロードし、更新された既存のファイルを更新しないでしょうか?

4

1 に答える 1

1

ファイル ダウンロードCloudConnect コンポーネント自体は、以前の状態を記憶するメカニズムが実装されていないため、ソース フォルダーに表示された新しいファイルのみをダウンロードするアクションをサポートしていませんが、入力ポートがあるため、このようなメカニズムを自分で実装するには、ファイル リストCloudConnect コンポーネントを使用して、Reformat、いくつかの Joiner および CSV Writer CloudConnect コンポーネントの助けを少し借ります。このようにして、ソース フォルダーの内容を特定し、プレーン テキスト ファイルに書き込むことができます。このメカニズムは、次の処理で前回の実行から状態ファイルを読み取り、新しいファイルが何であるかを判断してから、新しいファイルのリストをFile Download CloudConnect コンポーネントの入力ポートに送信するように設計できます。.

新しいファイルのみを処理するもう 1 つの方法は、以前の記事で説明したプロセスよりもはるかに単純であり、したがって一般的に使用されている方法ですが、ソース フォルダーのフォルダー構造を利用することに基づいています。新しいファイルと、すでに処理されたファイル用の別の専用フォルダー。その後、CloudConnect ETL プロセス自体が専用のソース フォルダーから新しいファイルを読み取り、ETL プロセスの最終段階には、既に処理された新しいファイルを専用フォルダーから既にすべてを含むフォルダーに転送するために使用されるファイル コピー/移動CloudConnect コンポーネントが含まれます。処理されたファイル。

于 2015-11-02T05:56:54.740 に答える