python - スパース行列の効率的な最近傍探索

Question

私は疎な用語文書マトリックスに変換したデータ (テキスト) の大規模なコーパスを持っています (私はscipy.sparse.csr.csr_matrix疎なマトリックスを保存するために使用しています)。すべてのドキュメントについて、上位 n 個の最近傍一致を見つけたいと考えています。ライブラリNearestNeighbor内のルーチン(正確には) が私の問題を解決することを望んでいましたが、スパース行列などの空間分割データ構造を使用する効率的なアルゴリズムは機能しません。ブルートフォースアルゴリズムのみがスパース行列で機能します（私の場合、大規模なコーパスを扱っているため、これは実行できません）。Python scikit-learnsklearn.neighbors.NearestNeighborKD treesBall trees

疎行列の最近傍検索の効率的な実装はありますか (Python または他の言語で)?

ありがとう。

score 4 · Accepted Answer

遅い回答: Locality-Sensitive-Hashing をご覧ください

scikit-learn でのサポートは、こちらとこちらで提案されています。

score 3 · Accepted Answer

TruncatedSVD を使用して、高次元のスパースデータを低次元の高密度データに変換してから、ボールツリーを実行できます。

python - スパース行列の効率的な最近傍探索

2 に答える 2

Related

Reference