ドキュメントの最近傍または近似最近傍を見つけるための解決策を見つけようとしています。
現在、ドキュメントのベクトル表現として tfidf を使用しています。私のデータはかなり大きいです (N ~ 100 万)。tfidf で annoy を使用すると、メモリが不足しました。tfidf の高次元性 (私の語彙は約 2000000 語の中国語) のせいだと思いました。
次にpysparNNで試してみましたが、うまくいきました。ただし、私の懸念は、データサイズが大きくなると、pysparNN がより大きなインデックスを構築し、最終的に RAM に収まらない可能性があることです。pysparNN は annoy のように静的ファイルを使用しないため、これは問題です。
テキストデータの最近傍を見つけるための良い解決策は何だろうと思っています。現在、gensim の annoy インデックスを doc2ve で使用することを検討しています。