1

はるかに大きなセットのサブセット内に文字列が表示されるという信頼スコアを計算しようとしています。

元のリストに10個の単語があり、新しい単語を10個すべての単語と照合するとします。各一致は類似度スコアを返します。70%未満の類似性スコアを無視するようにしきい値を設定しました。したがって、最後に、リスト内の3つの単語と一致する可能性のある入力単語が残ります。

私にとって、これは私の入力単語がより高い類似性スコアを持つ3つの単語と一致する可能性が33.333%になります。単語が一致していると私がどれだけ自信を持っているかを計算したいのは、これら3つです。私は自信スコアを次のように計算しましたが、これは間違っているようで、簡単な方法です。

  1. 猫1-70%の類似性-33.3%の確率。
  2. 猫2-75%の類似性-33.3%の確率。
  3. Cat 3-80%の類似性-33.3%の確率。

((0.70)*(0.333))+((0.75)*(0.333))+((0.80)*(0.333))= 75%自信がある。

信頼水準を計算する最良の方法は何ですか?

編集:要求に応じてより良いサンプル

オリジナルワードセット

  1. こんにちは
  2. ヘルプ
  3. 地獄
  4. 問題
  5. 世界
  6. 海洋
  7. 動物
  8. にんじん
  9. 茶色

新しい単語を一致させる-ヘリコプターを元の単語セットと照合します。一致は、元のセットから70%を超える類似度スコアを持つ3つの単語を返します。返された単語は次のとおりです。1。こんにちは-類似性70%2.ヘルプ-類似性75%3.地獄-類似性80%

helpicopterが返された単語と一致することを私がどれほど確信しているかを示すスコアを計算したいと思います。

回答:[リンク] http://social.msdn.microsoft.com/Forums/en-US/sqlintegrationservices/thread/ff9fc38e-8ca3-4d9a-b505-dfbe37910b17

4

1 に答える 1

3

あなたの確率は正しくありません (または確率ではありません)。あなたの単語上位 3 つの類似性スコアの 1 つに一致すると想定しているようです (一致する場合、信頼度は事実上100% です...)。また、確率と類似度のスコアは独立していないため、確率/統計に基づくものを探している場合、計算にも欠陥があります。

実際に行ったことは、上位 3 つのケースの平均「類似度」を計算することです。それが (非統計的な) 信頼レベルとして許容できるのであれば、それで問題ありません。しかし、あなたはこれについて自分で値を呼び出す必要があります.あなたがやろうとしていることには数学的な根拠はありません. さらに支援するには、次の点についてさらに多くの情報を提供していただく必要があります。

  • 類似性スコアの計算方法。
  • あなたの単語が 10 個のリストの何かと一致する確率はどれくらいですか。
  • あなたのリストにある 10 個の単語はどれくらい似ていますか。
  • などなど

編集後に編集します。

3 つの単語自体が非常に「類似」しているため、3 つの「類似度」スコアは独立しているとは言えません。いずれにせよ、「ヘリコプター」が「地獄」に 80% 似ているというアルゴリズムは、あまり良くありません。この場合、信頼水準はかなりゼロに近いと思います....!

于 2012-05-15T15:03:33.693 に答える