java - Javaで大量のデータを処理する

Question

大規模なデータセットにクラスタリングアルゴリズムを実装しています。データセットはテキストファイルにあり、1 億を超えるレコードが含まれています。各レコードには 3 つの数値フィールドが含まれます。

1,1503895,4
3,2207774,5
6,2590061,3
...

クラスタリングアルゴリズムに従って、このファイル内のレコードにランダムにアクセスする必要があるため、可能であれば、このすべてのデータをメモリに保持する必要があります。そのため、 Find duplicates in large fileで説明されているように、パーティションとマージのアプローチを行うことはできません

この問題の可能な解決策は何ですか? ehcache のようなキャッシュ技術を使用できますか?

score 0 · Accepted Answer

3億intはそれほど多くのメモリを消費するべきではありません。3億intの配列をインスタンス化してみてください。私の手の計算では、64ビットマシンでは約1.2GBです。

java - Javaで大量のデータを処理する

1 に答える 1

Related

Reference