3

次の状況を使用して対処したいPython(できればnumpyandを使用scipy):

  1. まばらな用語ドキュメント マトリックスに変換したいドキュメントのコレクション。
  2. 各ドキュメントのスパース ベクトル表現 (つまり、マトリックスの行) を抽出し、ドキュメントの特定のサブセット内でコサイン類似度を使用して上位 10 個の類似ドキュメントを見つけます (ドキュメントはカテゴリでラベル付けされており、同じカテゴリ内で類似ドキュメントを検索したい)。

でこれを達成するにはどうすればよいPythonですか? ドキュメントをスパース ベクトルとして表現し、ドット積をとってコサインの類似性を見つけるために使用できることはわかってscipy.sparse.coo_matrixいますが、コーパス全体を大規模だがスパースな用語ドキュメント マトリックスに変換するにはどうすればよいでしょうか (その行をscipy.sparse.coo_matrix行ベクトルとして抽出することもできます)。

ありがとう。

4

2 に答える 2

0

この質問を参照できます

Python: tf-idf-cosine: ドキュメントの類似性を見つける

scikitパッケージとの余弦の類似性を見つけることができる質問に答えました。

于 2013-09-20T11:00:58.323 に答える