data.frame に読み込むと、次のようなキーワード間の類似性の非常に大きな csv ファイルがあります (したがって、R では for ループに時間がかかりすぎます)。
> df
kwd1 kwd2 similarity
a b 1
b a 1
c a 2
a c 2
次のように、これを dist オブジェクトに変換したいと思います。
> dObject
a b
b 1
c 2 0
これを機能させることができませんでした: 実際にRで距離を計算せずに、データフレームをクラス「dist」のオブジェクトに変換します
私が持っていた別のアイデアは、Matrix() を使用してスパース マトリックスを作成することでしたが、csv がかなり大きいため、マトリックスを効率的に作成する方法がわかりません。おそらく適用関数ですか?
多分reshape()?
---- 更新 ---- これは上記のおもちゃのデータセットで動作するようです: https://stats.stackexchange.com/questions/6827/effective-way-to-populate-matrix-in-r
ただし、この例では matrix() を使用していますが、メモリ上の理由からスパースな Matrix() を使用したいと考えています。
--- さらに ---- 以前から同様の投稿があります。ただし、データセット内のすべての要素間のリンクではないこのケースでは、それからのアドバイスが機能するとは思いません。csv には、前の投稿のようにすべてのキーワード間のペアごとの類似性が含まれていません 。 Rで実際に距離を計算せずに、クラス「dist」のオブジェクトへのデータフレーム