.csv または同様の形式で記録されたテーブルを表すファイルがあります。テーブルには欠損値が含まれる場合があります。ファイルが巨大になる可能性があるため、すべてをメモリにロードせずにファイルを段階的に処理するソリューション(できればJavaで)を探します。考慮対象から除外する列を指定できるように、ファイル内の重複レコードを特定する必要があります。次に、それらの重複レコードをグループ化した出力を生成します。グループ番号で最後に追加の値を追加し、グループ番号でソートされた同じ形式 (.csv) で出力します。
ハッシュ関数で効果的な解決策が見つかることを願っています。たとえば、すべての行を読み取り、各行番号とともにハッシュ値を格納します。ハッシュは、入力として提供する一連の変数に基づいて計算されます。
何か案は?