類似性に基づいてドキュメントをクラスタリングしたい。
非常に高速な ssdeep (類似性ハッシュ) を試しましたが、k-means の方が高速で、flann はすべての実装の中で最も高速であり、より正確であると言われました。テキストで実行します(数値の配列のみをサポートします)。
私はこの分野(k-means、自然言語処理)に非常に慣れていません。必要なのはスピードと正確さです。
私の質問は次のとおりです。
- KMeans を使用してドキュメントの類似性グループ化/クラスタリングを行うことはできますか (Flann はテキスト入力を許可していないようです)
- フランは正しい選択ですか?そうでない場合は、Python ラッパー/API を備えたテキスト/ドキュメント クラスタリングをサポートする高性能ライブラリを提案してください。
- k-means は正しいアルゴリズムですか?