約 30,000 ドキュメントの tf-idf ベクトルを含む DB があります。
特定のドキュメントに対して、類似したドキュメントのセット (約 4 つ) を返したいと考えています。
データに K-Means (クラスタリング アルゴリズム) を (コサイン類似度を使用して) 実装することを考えましたが、多くの不確実性があるため、それが最良の選択であるかどうかはわかりません。作成するクラスターの数がわからない、クラスターのバランスが崩れすぎるのではないかと心配している、結果の品質が良いかどうかわからない、など。
経験豊富なユーザーからのアドバイスやヘルプは大歓迎です。
ありがとうございました、
ケイティ