pentaho - ETL ファイルの読み込み: 今日作成されたファイル、またはまだ読み込まれていないファイル?

Question

新しいデータファイルをデータベースにロードするプロセスを自動化する必要があります。私の質問は、自動化された方法でどのファイルが「新しい」かを判断する最良の方法についてです。

ファイルは毎晩同期されるディレクトリから取得されるため、ファイルのリストは増え続けます。既に取得したファイルを消去するオプションはありません。

新しいレコードは、各レコードが作成されたファイル名を示すフィールドを持つ生データテーブルに保存されるため、現在ディレクトリにあるすべてのファイル名を生データテーブルに既にあるファイル名と比較し、含まれていないファイル名のみを処理できます。一般。

または、ファイル名に含まれるタイムスタンプを使用して、最後にインポートプロセスを実行した後に作成されたファイルのみを処理することもできます。

エラーが発生しにくいと思われるため、最初のアプローチを使用することに傾いていますが、これが実際に真実であるかどうかを見つけるのはあまり運がありませんでした. すべてのファイル名をデータベースに既に存在するファイル名と比較して、この方法で新しいファイルを決定することの落とし穴は何ですか?

score 1 · Accepted Answer

ファイル名の比較:

日付ごとにファイル名を取得します。

上記のいずれかを行うには、次の Pentaho ステップを使用できます。

構成ファイル名の取得手順:

1 に答える 1