文のペアの意味的類似性スコアを計算するためのライブラリはありますか?
WordNet のセマンティック データベースと、2 単語のスコアを生成する方法を認識していますが、文全体と出力に対して、ポート ステミング、単語の削除の停止などのすべての前処理タスクを実行するライブラリを探しています。 2 つの文がどの程度関連しているかのスコア。
一連の前処理ステップを使用してスコアを計算する .NET フレームワークを使用して作成された進行中の作業を見つけました。Pythonでこれを行うプロジェクトはありますか?
スコアを見つけるのに役立つ一連の操作を探しているわけではありません (ここで求められているように)
。各ステージを自分で実装するか、異なるライブラリの関数を接着して、文のペアで機能するようにしたいと思います。しかし、これは主に、データの推論をテストするためのツールとして必要です。
編集: NLTK を使用して、2 つの文で繰り返される単語のペアごとにスコアを計算し、結果の標準偏差から推論を引き出すことを検討していましたが、それが類似性の正当な推定値であるかどうかはわかりません。さらに、長い文字列の場合はかなりの時間がかかります。
繰り返しますが、これをインテリジェントに実装しているプロジェクト/ライブラリを探しています。これを可能にする何か:
import amazing_semsim_package
str1='Birthday party ruined as cake explodes'
str2='Grandma mistakenly bakes cake using gunpowder'
>>similarity(str1,str2)
>>0.889