大きなデータ フレーム (375,000 行と 5 列) があり、すべての変数は数値です。R の階層的クラスタリングを使用して、このデータ フレームを時空間的にクラスタリングしたいと考えています。しかし、距離行列を計算しようとすると、次のエラーが表示されます。コンピューターの最大メモリ (16 GB RAM) を超えているためですか? それとも、2 ^ 31 - 1 (約 20 億) 要素である R のベクトルの最大長を超えているためですか? ところで、私が計算しようとしているこの距離行列の長さを計算する方法は? 375,000^2 は 1000 億近くに相当しますか? いずれにせよ、この問題に関して私は何ができますか?この場合、どうにかして階層的クラスタリングを引き続き使用できますか?
kmeans を使用したクラスタリングは完全に機能しますが、上司は階層的クラスタリングを好みます。
ヒント/提案は大歓迎です
PS 行は車両のトリップ ID を表し、列は次を表します: 開始点の経度、開始点の緯度、終点の経度、終点の緯度、および特定の日のトリップ時間 (すべての値はすべての変数に対してスケーリングされます)。