2 つの文字列間の類似性を計算するアプリケーションを作成しようとしています。弦は長くありません。最大 3 文の長さ。私はいくつかの調査を行い、いくつかの可能な解決策に出くわしました。
最初の 1 つは単語の袋を使用します: 単語を数え、生成された 2 つのベクトルを比較します (コサイン類似度)
2 つ目は TF-IDF を使用し、生成されたベクトルを比較します。
3 つ目は、word2vec を使用してベクトルを比較することです。
それでは質問です。
パフォーマンスに関しては、単語 2vec のパフォーマンスは、短い文の TF-IDF よりも優れていますか?
word2vec モデルをトレーニングする最良の方法は何ですか? 大量のテキスト (ウィキペディアのダンプなど) を使用するか、比較対象の文のみを使用してトレーニングする必要があります。
word2vecから文の類似度を取得する方法. 各文の単語を平均化する必要がありますか、それともより良い解決策がありますか?