大規模なデータセット (〜 188000 行) があります。行間の距離を計算したいので、関数を適用しhclust
てデータセットの中心を決定し、後でkmeans
関数を適用してデータを分類できます。
私の問題は、マトリックス距離を計算する最初のステップにあります。dist
パッケージの関数を使用すると、次のstats
エラーが発生しました。
Error: cannot allocate vector of size 132.0 Gb
RAMの問題であることは明らかです。
距離行列を計算する別の方法を見つける必要があります。
明確な答えは私にとってとても役に立ちます。