大規模なデータセットにクラスタリング アルゴリズムを実装しています。データセットはテキスト ファイルにあり、1 億を超えるレコードが含まれています。各レコードには 3 つの数値フィールドが含まれます。
1,1503895,4
3,2207774,5
6,2590061,3
...
クラスタリング アルゴリズムに従って、このファイル内のレコードにランダムにアクセスする必要があるため、可能であれば、このすべてのデータをメモリに保持する必要があります。そのため、 Find duplicates in large fileで説明されているように、パーティションとマージのアプローチを行うことはできません
この問題の可能な解決策は何ですか? ehcache のようなキャッシュ技術を使用できますか?