ソースとしてフラット ファイルを作成する多くのソースを使用してデータ ウェアハウス プロジェクトに取り組んでおり、SSIS を使用してこれらをステージング テーブルにロードしています。現在、フラット ファイル ソース コンポーネントを使用しています。
ただし、しばらくすると、ファイルの 1 つに追加の列が必要になり、日付からファイル仕様が変更され、その追加の列が追加されます。この演習は非常に頻繁に行われ、時間の経過とともにかなり多くのバージョンが蓄積されます。
こことインターネットの残りの部分で見つけることができる回答によると、このシナリオを処理するための合意された方法は、このバージョンの新しい別のデータフローで新しいフラットファイルソースを設定し、ETL プロセスの再実行可能性を維持することです。古いファイル用。メソッドの概要は次のとおりです。たとえば、列が少ないフラットファイル接続を使用した SSIS pkg は失敗します。
私たちの特定のセットアップでは、追加の列は常に追加の列であり (古い列を削除しないでください)、論理的な理由から、古いファイルの再実行可能性を個別のデータ フローで維持する場合、新しい列を必須にすることはできません。
同じ列のセットを何度も処理する重複したデータ フローを作成する方法は、私たちのようなデータ ウェアハウス プロジェクトにとって良い答えではないと思います。最後のファイル バージョンを取得し、列を「必須ではない」とマークし、欠落している場合は null を配信する機能。
古いファイル バージョンをより柔軟に処理できる SSIS フラット ファイル コンポーネントを知っている人や、この問題に対するより良い解決策がある人はいますか? このようなコンポーネントは、既存の左から右へのアプローチではなく、名前付き列ベースでファイルにアプローチする必要があると思いますか?
どんな考えや提案も大歓迎です!