ここに問題があります-私は数千の小さなテキストスニペットを持っています、数語から数文までのどこかにあります-最大のスニペットはディスク上で約2kです。それぞれを比較し、関連性係数を計算して、ユーザーに関連情報を表示できるようにしたいと考えています。
これを行うためのいくつかの良い方法は何ですか?これを行うための既知のアルゴリズムはありますか?GPLされたソリューションなどはありますか?
すべてを事前に計算できるので、これをリアルタイムで実行する必要はありません。私は実行時よりも良い結果を得ることに関心があります。
自分のことを書く前に、StackOverflowコミュニティに聞いてみようと思っただけです。以前にこれに対する良い解決策を見つけた人々がそこにいる必要があります。