このサイトで同様の問題を探したところ、http://math.nist.gov/javanumerics/jama/とこれが見つかりました:http: //sujitpal.blogspot.com/2008/09/ir-math-with- java-similarity-measures.html
ただし、これらはO(n ^ 2)で実行されているようです。私はいくつかのドキュメントクラスタリングを行ってきましたが、小さなドキュメントセットを処理する場合でも、このレベルの複雑さは実現不可能であることに気付きました。ドット積の場合、両方のベクトルに含まれるベクトル項のみが必要であるとすると、ベクトルをツリーに配置して、n log nの複雑さでドット積を計算できます。ここで、nはで一意の項の最小数です。 2つのドキュメントのうちの1つ。
私は何かが足りないのですか?これを行うJavaライブラリはありますか?
ありがとう