非常に長い距離のセットでfastclustを実行しようとしていますが、問題が発生しています。
私は非常に大きなcsvファイル(約9,100万行なので、Rではforループに時間がかかりすぎる)を持っています。これは、data.frameに読み込んだときに次のようになります。
> df
kwd1 kwd2 similarity
a b 1
b a 1
c a 2
a c 2
これはスパースリストであり、sparseMatrix()を使用してスパース行列に変換できます。
> myMatrix
a b c
a . . .
b 1 . .
c 2 . .
ただし、as.dist()を使用してdistオブジェクトに変換しようとすると、Rから「問題が大きすぎます」というエラーが表示されます。ここで他のdistの質問を読みましたが、他の人が提案したコード上記のサンプルデータセットでは機能しません。
助けてくれてありがとう!