次のタイプのスキーマを含む Sqlite データベースがあります。
termcount(doc_num, term , count)
このテーブルには、ドキュメント内のそれぞれのカウントを持つ用語が含まれています。お気に入り
(doc1 , term1 ,12)
(doc1, term 22, 2)
.
.
(docn,term1 , 10)
各ドキュメントにはゼロ以外の値を持つ用語がほとんど含まれていないため、このマトリックスはスパース マトリックスと見なすことができます。
コサイン類似度を使用してドキュメント間の類似度を計算する必要があるため、numpy を使用してこの疎行列から密行列を作成するにはどうすればよいでしょうか。
この密行列は、最初の列として docid を持ち、すべての用語が最初の行としてリストされ、残りのセルにはカウントが含まれるテーブルのように見えます。