0

.csv または同様の形式で記録されたテーブルを表すファイルがあります。テーブルには欠損値が含まれる場合があります。ファイルが巨大になる可能性があるため、すべてをメモリにロードせずにファイルを段階的に処理するソリューション(できればJavaで)を探します。考慮対象から除外する列を指定できるように、ファイル内の重複レコードを特定する必要があります。次に、それらの重複レコードをグループ化した出力を生成します。グループ番号で最後に追加の値を追加し、グループ番号でソートされた同じ形式 (.csv) で出力します。

ハッシュ関数で効果的な解決策が見つかることを願っています。たとえば、すべての行を読み取り、各行番号とともにハッシュ値を格納します。ハッシュは、入力として提供する一連の変数に基づいて計算されます。

何か案は?

4

1 に答える 1

0

OK、ここに答えの鍵を握る論文があります: P. Gopalan & J. Radhakrishnan "Finding duplicates in a data stream".

于 2012-09-12T15:44:18.920 に答える