nearest-neighbor - ドキュメント類似性検索 - annoy & pysparNN

Question

ドキュメントの最近傍または近似最近傍を見つけるための解決策を見つけようとしています。

現在、ドキュメントのベクトル表現として tfidf を使用しています。私のデータはかなり大きいです (N ~ 100 万)。tfidf で annoy を使用すると、メモリが不足しました。tfidf の高次元性 (私の語彙は約 2000000 語の中国語) のせいだと思いました。

次にpysparNNで試してみましたが、うまくいきました。ただし、私の懸念は、データサイズが大きくなると、pysparNN がより大きなインデックスを構築し、最終的に RAM に収まらない可能性があることです。pysparNN は annoy のように静的ファイルを使用しないため、これは問題です。

テキストデータの最近傍を見つけるための良い解決策は何だろうと思っています。現在、gensim の annoy インデックスを doc2ve で使用することを検討しています。

score 1 · Accepted Answer

ドキュメントの埋め込みに関しては、tfidfが優れたソリューションであるとは思いません。FastText、LASER、gensim、BERT、ELMO などを使用してより洗練されたテキスト (doc) 埋め込みを抽出し、次に annoy または faiss を使用して類似性を取得するためのインデックスを構築することができます。

nearest-neighbor - ドキュメント類似性検索 - annoy & pysparNN

1 に答える 1

Related

Reference