私は疎な用語文書マトリックスに変換したデータ (テキスト) の大規模なコーパスを持っています (私はscipy.sparse.csr.csr_matrix
疎なマトリックスを保存するために使用しています)。すべてのドキュメントについて、上位 n 個の最近傍一致を見つけたいと考えています。ライブラリNearestNeighbor
内のルーチン(正確には) が私の問題を解決することを望んでいましたが、スパース行列などの空間分割データ構造を使用する効率的なアルゴリズムは機能しません。ブルートフォースアルゴリズムのみがスパース行列で機能します(私の場合、大規模なコーパスを扱っているため、これは実行できません)。Python scikit-learn
sklearn.neighbors.NearestNeighbor
KD trees
Ball trees
疎行列の最近傍検索の効率的な実装はありますか (Python または他の言語で)?
ありがとう。