はじめに
乱雑な Excel ダンプがテーブルに直接表示されました。今、私はその混乱を有用なものに変える必要があります. ダンプには重複と矛盾があります... 良い時代です!
これまでのところ、すべてのアプローチに打ち込んでいます:(-助けていただければ幸いです。
この例のデータセットを考えると:
ExcelDump
+----+------+------+------+
| ID | Col1 | Col2 | Col3 |
+----+------+------+------+
| 1 | | | C |
| 1 | | B | C |
| 1 | A | B | D |
| 1 | E | B | C |
| 2 | A | B | C |
| 2 | A | B | C |
| 3 | A | B | C |
| 3 | A | B | F |
| 4 | A | B | C |
| 4 | G | B | C |
+----+------+------+------+
1 つの考えられる結果は次のとおりです。
OutputTable
+----+------+------+------+
| ID | Col1 | Col2 | Col3 |
+----+------+------+------+
| 1 | A | B | C |
| 2 | A | B | C |
| 3 | A | B | C |
| 4 | A | B | C |
+----+------+------+------+
素敵できれい。意味のある方法でマージされた一意の ID キーとデータ。
どのデータが正しいかを選択する方法は?
別の可能な結果が次のようになる可能性があることに気付いたでしょう。
+----+------+------+------+
| ID | Col1 | Col2 | Col3 |
+----+------+------+------+
| 1 | E | B | C |
| 2 | A | B | C |
| 3 | A | B | F |
| 4 | G | B | C |
+----+------+------+------+
ここが複雑なところです。操作できるいくつかの条件に基づいて、最も理にかなったセットを選択できるようにしたい.
たとえば、次のような条件を設定したいと考えています。 この条件は、ID によるグループ化の選択に適用する必要があります。その条件の結果は次のようになります。
+----+------+------+------+
| ID | Col1 | Col2 | Col3 |
+----+------+------+------+
| 1 | A | B | C |
| 2 | A | B | C |
| 3 | A | B | C |
| 4 | A | B | C |
+----+------+------+------+
後でその仮定が間違っていることがわかった場合は、代わりに次のようにする必要があります。
+----+------+------+------+
| ID | Col1 | Col2 | Col3 |
+----+------+------+------+
| 1 | E | B | C |
| 2 | A | B | C |
| 3 | A | B | F |
| 4 | G | B | C |
+----+------+------+------+
したがって、基本的には、ID の各グループの一連の条件に基づいて値を選択したいと考えています。