ファイルシステムの「ドロップボックス」ディレクトリに配信されるフラットファイルに依存する毎日のプロセスがあります。これにより、このコンマ区切りの(外部企業のExcelなどからの)データのデータベース、断片的なPerl / Bashアプリケーションへのロードが開始されます、このデータベースは複数のアプリケーションで使用されるだけでなく、いくつかの GUI ツールで直接編集されます。データの一部は、追加の Perl アプリを使用して、私が主に使用するデータベースに複製されます。
言うまでもなく、すべてが複雑でエラーが発生しやすく、入ってくるデータが破損したり、編集によって壊れたりすることがあります。私のユーザーは、データの欠落や不正確さについてよく苦情を言います。フラット ファイルと DB を比較して、プロセスが壊れている場所を分析するには時間がかかり、日を追うごとにどのデータがデータ不足になり、分析が難しくなります。
このデータ転送プロセスの一部またはすべてを修正または書き直す予定です。
これに着手する前に、推奨される読書を探しています。堅牢で障害に強く、自動回復可能な ETL プロセスを作成する方法に関する Web サイトや記事、またはその他のアドバイスをいただければ幸いです。