tf/idf を使用して、2 つのドキュメント間のコンサイン類似度を計算しました。いくつかの制限があり、あまりうまく機能しません。
ドキュメントの類似度を計算するために、LDA (潜在的ディリクレ配分) を探しました。私はこれについてあまり知りません。私の問題についても多くのものを見つけることができませんでした。
私の問題に関連するチュートリアルを教えてください。または、LDAでこのタスクを達成するにはどうすればよいかアドバイスをいただけますか???
ありがとう
PS: また、LDA でそのようなタスクを実行するためのソース コードはありますか??