java - .csv に変数を含む行をハッシュするための Java ソリューション

Question

.csv または同様の形式で記録されたテーブルを表すファイルがあります。テーブルには欠損値が含まれる場合があります。ファイルが巨大になる可能性があるため、すべてをメモリにロードせずにファイルを段階的に処理するソリューション（できればJavaで）を探します。考慮対象から除外する列を指定できるように、ファイル内の重複レコードを特定する必要があります。次に、それらの重複レコードをグループ化した出力を生成します。グループ番号で最後に追加の値を追加し、グループ番号でソートされた同じ形式 (.csv) で出力します。

ハッシュ関数で効果的な解決策が見つかることを願っています。たとえば、すべての行を読み取り、各行番号とともにハッシュ値を格納します。ハッシュは、入力として提供する一連の変数に基づいて計算されます。

何か案は？

score 0 · Accepted Answer

OK、ここに答えの鍵を握る論文があります: P. Gopalan & J. Radhakrishnan "Finding duplicates in a data stream".

java - .csv に変数を含む行をハッシュするための Java ソリューション

1 に答える 1

Related

Reference