search-engine - 再現率と適合率について

Question

私は現在情報検索を学んでおり、リコールと精度の例にかなりこだわっています

検索者は、検索エンジンを使用して情報を探します。結果の最初の画面には 10 個のドキュメントがあり、2 番目の画面には 10 個のドキュメントがあります。

検索エンジンのインデックスに 10 件の関連ドキュメントがあることがわかっていると仮定します。

そう... 20 件の検索があり、そのうち 10 件が関連しています。

誰かがこれを理解するのを手伝ってくれますか?

ありがとう

score 9 · Accepted Answer

再現率と精度は、結果の品質を測定します。それらを理解するために、最初に結果のタイプを定義しましょう。返されたリスト内のドキュメントは、次のいずれかです。

正しく分類された
- 真陽性 (TP): 実際に返された (true) 関連のある (陽性) ドキュメント
- 真の否定 (TN): 関連性がなく (否定)、実際には返されなかった文書 (真)
誤分類
- 偽陽性 (FP): 関連性はないが陽性と返されたドキュメント
- 偽陰性 (FN): 関連性はあるが、否定的に返されなかったドキュメント

精度は次のとおりです。

|TP| / (|TP| + |FP|)

つまり、検索されたドキュメントのうち実際に関連性がある割合

リコールは次のとおりです。

|TP| / (|TP| + |FN|)

つまり、結果セットに含まれる関連ドキュメントの割合

したがって、あなたの例では、20 件の結果のうち 10 件が関連しています。これにより、0.5 の精度が得られます。関連文書がこれらの 10 件以下の場合、リコールは 1 です。

(情報検索システムのパフォーマンスを測定する場合、適合率と再現率の両方を考慮することだけが理にかなっています。結果をまったく返さない (つまり、偽のインスタンスが返されない => FP なし) または再現率が 100% の精度を簡単に得ることができます。すべてのインスタンスを返すことによって 100% の (つまり、関連するドキュメントが見落とされていない => FN がない)。

score -3 · Accepted Answer

精度と再現率を理解するのが難しい場合は、これを読むことを検討してください

https://medium.com/seek-product-management/8-out-of-10-brown-cats-6e39a22b65dc

search-engine - 再現率と適合率について

3 に答える 3

Related

Reference