はるかに大きなセットのサブセット内に文字列が表示されるという信頼スコアを計算しようとしています。
元のリストに10個の単語があり、新しい単語を10個すべての単語と照合するとします。各一致は類似度スコアを返します。70%未満の類似性スコアを無視するようにしきい値を設定しました。したがって、最後に、リスト内の3つの単語と一致する可能性のある入力単語が残ります。
私にとって、これは私の入力単語がより高い類似性スコアを持つ3つの単語と一致する可能性が33.333%になります。単語が一致していると私がどれだけ自信を持っているかを計算したいのは、これら3つです。私は自信スコアを次のように計算しましたが、これは間違っているようで、簡単な方法です。
- 猫1-70%の類似性-33.3%の確率。
- 猫2-75%の類似性-33.3%の確率。
- Cat 3-80%の類似性-33.3%の確率。
((0.70)*(0.333))+((0.75)*(0.333))+((0.80)*(0.333))= 75%自信がある。
信頼水準を計算する最良の方法は何ですか?
編集:要求に応じてより良いサンプル
オリジナルワードセット
- こんにちは
- ヘルプ
- 地獄
- 問題
- 世界
- 海洋
- 動物
- にんじん
- 茶色
- 黒
新しい単語を一致させる-ヘリコプターを元の単語セットと照合します。一致は、元のセットから70%を超える類似度スコアを持つ3つの単語を返します。返された単語は次のとおりです。1。こんにちは-類似性70%2.ヘルプ-類似性75%3.地獄-類似性80%
helpicopterが返された単語と一致することを私がどれほど確信しているかを示すスコアを計算したいと思います。