0

大規模なデータセットにクラスタリング アルゴリズムを実装しています。データセットはテキスト ファイルにあり、1 億を超えるレコードが含まれています。各レコードには 3 つの数値フィールドが含まれます。

1,1503895,4
3,2207774,5
6,2590061,3
...

クラスタリング アルゴリズムに従って、このファイル内のレコードにランダムにアクセスする必要があるため、可能であれば、このすべてのデータをメモリに保持する必要があります。そのため、 Find duplicates in large fileで説明されているように、パーティションとマージのアプローチを行うことはできません

この問題の可能な解決策は何ですか? ehcache のようなキャッシュ技術を使用できますか?

4

1 に答える 1

0

3億intはそれほど多くのメモリを消費するべきではありません。3億intの配列をインスタンス化してみてください。私の手の計算では、64ビットマシンでは約1.2GBです。

于 2013-01-26T00:23:43.690 に答える