4

SSISデータフローの重複の削除から、並べ替え変換を使用して重複データ値の行を削除する方法を学びました。

私の場合、区切られたファイルを読み取っていて、重複を排除し、重複したキーを持つ行をログに記録する必要があります。これらの行を別の区切られたファイルに出力する必要があります。顧客がデータを修正して再試行できるように、それを電子メールで顧客に返信します。

しかし、これを行う方法を完全に理解することはできません。AggregateとMergeJoinを試してみますが、これを行うための既知のパターンがあることを願っています。

4

3 に答える 3

6

Hi my answer gonna work with any data, because some solutions in internet need primary key of rows, for my solution primary key is not required. Here sample structure and sample dataset:

a   b
1   23
1   23
16  59
12  12
13  45
12  12
45  56

enter image description here

Just group by all columns and add last column - count all (If there are more than two columns or more, you just need in "Aggregate" element put all columns and foreach set group by and in the end put "Count All" column):

enter image description here

Then just add conditional split element and take all rows where are more than 1 same row:

enter image description here

Real Example:

enter image description here

于 2012-09-06T21:05:50.010 に答える
2

ブログのいくつかのオプションを調べて、データフローから重複を削除します。ここでは、代替処理のために重複行を「保存」する方法についての小さな脚注を付けます。

于 2012-09-08T16:10:59.677 に答える
0

スクリプトを介して可能かもしれません。

まず、スクリプトを使用してデータセットを反復処理し、プログラムで重複を識別します。次に、見つけた重複のエントリをログファイルに書き込むことができます

于 2012-09-06T20:55:52.630 に答える