次の状況を使用して対処したいPython
(できればnumpy
andを使用scipy
):
- まばらな用語ドキュメント マトリックスに変換したいドキュメントのコレクション。
- 各ドキュメントのスパース ベクトル表現 (つまり、マトリックスの行) を抽出し、ドキュメントの特定のサブセット内でコサイン類似度を使用して上位 10 個の類似ドキュメントを見つけます (ドキュメントはカテゴリでラベル付けされており、同じカテゴリ内で類似ドキュメントを検索したい)。
でこれを達成するにはどうすればよいPython
ですか? ドキュメントをスパース ベクトルとして表現し、ドット積をとってコサインの類似性を見つけるために使用できることはわかってscipy.sparse.coo_matrix
いますが、コーパス全体を大規模だがスパースな用語ドキュメント マトリックスに変換するにはどうすればよいでしょうか (その行をscipy.sparse.coo_matrix
行ベクトルとして抽出することもできます)。
ありがとう。