5

私は現在情報検索を学んでおり、リコールと精度の例にかなりこだわっています

検索者は、検索エンジンを使用して情報を探します。結果の最初の画面には 10 個のドキュメントがあり、2 番目の画面には 10 個のドキュメントがあります。

検索エンジンのインデックスに 10 件の関連ドキュメントがあることがわかっていると仮定します。

そう... 20 件の検索があり、そのうち 10 件が関連しています。

誰かがこれを理解するのを手伝ってくれますか?

ありがとう

4

3 に答える 3

9

再現率と精度は、結果の品質を測定します。それらを理解するために、最初に結果のタイプを定義しましょう。返されたリスト内のドキュメントは、次のいずれかです。

  • 正しく分類された

    • 真陽性 (TP): 実際に返された (true) 関連のある (陽性) ドキュメント
    • 真の否定 (TN): 関連性がなく (否定)、実際には返されなかった文書 (真)
  • 誤分類

    • 偽陽性 (FP): 関連性はないが陽性と返されたドキュメント
    • 偽陰性 (FN): 関連性はあるが、否定的に返されなかったドキュメント

精度は次のとおりです。

|TP| / (|TP| + |FP|)

つまり、検索されたドキュメントのうち実際に関連性がある割合

リコールは次のとおりです。

|TP| / (|TP| + |FN|)

つまり、結果セットに含まれる関連ドキュメントの割合

したがって、あなたの例では、20 件の結果のうち 10 件が関連しています。これにより、0.5 の精度が得られます。関連文書がこれらの 10 件以下の場合、リコールは 1 です。

(情報検索システムのパフォーマンスを測定する場合、適合率と再現率の両方を考慮することだけが理にかなっています。結果をまったく返さない (つまり、偽のインスタンスが返されない => FP なし) または再現率が 100% の精度を簡単に得ることができます。すべてのインスタンスを返すことによって 100% の (つまり、関連するドキュメントが見落とされていない => FN がない)。

于 2014-01-28T18:12:20.763 に答える
-3

精度と再現率を理解するのが難しい場合は、これを読むことを検討してください

https://medium.com/seek-product-management/8-out-of-10-brown-cats-6e39a22b65dc

于 2015-08-19T08:02:24.837 に答える