9

私は疎な用語文書マトリックスに変換したデータ (テキスト) の大規模なコーパスを持っています (私はscipy.sparse.csr.csr_matrix疎なマトリックスを保存するために使用しています)。すべてのドキュメントについて、上位 n 個の最近傍一致を見つけたいと考えています。ライブラリNearestNeighbor内のルーチン(正確には) が私の問題を解決することを望んでいましたが、スパース行列などの空間分割データ構造を使用する効率的なアルゴリズムは機能しません。ブルートフォースアルゴリズムのみがスパース行列で機能します(私の場合、大規模なコーパスを扱っているため、これは実行できません)。Python scikit-learnsklearn.neighbors.NearestNeighborKD treesBall trees

疎行列の最近傍検索の効率的な実装はありますか (Python または他の言語で)?

ありがとう。

4

2 に答える 2

4

遅い回答: Locality-Sensitive-Hashing をご覧ください

scikit-learn でのサポートは、こちらこちらで提案されています。

于 2014-10-14T09:11:42.123 に答える
3

TruncatedSVD を使用して、高次元のスパース データを低次元の高密度データに変換してから、ボール ツリーを実行できます。

于 2013-08-13T05:45:18.830 に答える