キーワード間の類似性 (約 50,000 の一意のキーワード) の非常に大きな csv ファイル (約 9,100 万行なので、R では for ループが長すぎる) があり、data.frame に読み込むと次のようになります。
> df
kwd1 kwd2 similarity
a b 1
b a 1
c a 2
a c 2
これはスパース リストであり、sparseMatrix() を使用してスパース マトリックスに変換できます。
> myMatrix
a b c
a . 1 2
b 1 . .
c 2 . .
ただし、これをdistオブジェクトに変換したいと思います。as.dist(myMatrix) を試しましたが、as.dist() では「問題が大きすぎます」というエラーが表示されました。また、myMatrix = myMatrix * lower.tri(myMatrix) を使用して、疎行列を下三角疎行列に変換してから dist オブジェクトに変換しようとしましたが (これの方がよいと考えられます)、同じエラーが発生しましたが、下側に関しては.tri 関数。
助けてくれてありがとう!