tfidf、okapi、言語モデル、lsa などのさまざまなメトリックでドキュメント間の類似性テストを実行するために、50 個のドキュメントのコーパスで使用できるパッケージ (実際には任意の言語) を探しています。
結果として、ドキュメントの類似性マトリックスが必要です。つまり、doc1 は doc2 と x% 類似しています。これは研究目的であり、本番用ではありません。これを人間の評価と関連付けたいので、ドキュメントの類似性マトリックスが特に必要です。
前もって感謝します!
tfidf、okapi、言語モデル、lsa などのさまざまなメトリックでドキュメント間の類似性テストを実行するために、50 個のドキュメントのコーパスで使用できるパッケージ (実際には任意の言語) を探しています。
結果として、ドキュメントの類似性マトリックスが必要です。つまり、doc1 は doc2 と x% 類似しています。これは研究目的であり、本番用ではありません。これを人間の評価と関連付けたいので、ドキュメントの類似性マトリックスが特に必要です。
前もって感謝します!
Python を知っている場合は、http: //www.nltk.org を使用できます。必要なものはすべて揃っており、ドキュメントと Python 言語も含まれています。