U-SQL を使用して、Azure Data Lake Store に配置された CSV データから重複する期間を削除し、それらの行を結合したいと考えています。データ セットには、開始時刻と終了時刻が含まれており、レコードごとに他のいくつかの属性が含まれています。以下に例を示します。
Start Time - End Time - Usar Name
5:00 AM - 6:00 AM - ABC
5:00 AM - 6:00 AM - XYZ
8:00 AM - 9:00 AM - ABC
8:00 AM - 10:00 AM - ABC
10:00 AM - 2:00 PM - ABC
7:00 AM - 11:00 AM - ABC
9:00 AM - 11:00 AM - ABC
11:00 AM - 11:30 AM - ABC
オーバーラップを削除すると、出力データ セットは次のようになります。
Start Time - End Time - Usar Name
5:00 AM - 6:00 AM - ABC
5:00 AM - 6:00 AM - XYZ
7:00 AM - 2:00 PM - ABC
CSV には膨大な量のデータが含まれており、数 GB のサイズで構成されていることに注意してください。私はこの問題を解決しようとしていますが、うまくいきません。Azure Data Lake Analytics ジョブの U-SQL ユーザー定義演算子を避け、U-SQL 内から効率的なソリューションを探しています。