私は現在情報検索を学んでおり、リコールと精度の例にかなりこだわっています
検索者は、検索エンジンを使用して情報を探します。結果の最初の画面には 10 個のドキュメントがあり、2 番目の画面には 10 個のドキュメントがあります。
検索エンジンのインデックスに 10 件の関連ドキュメントがあることがわかっていると仮定します。
そう... 20 件の検索があり、そのうち 10 件が関連しています。
誰かがこれを理解するのを手伝ってくれますか?
ありがとう
私は現在情報検索を学んでおり、リコールと精度の例にかなりこだわっています
検索者は、検索エンジンを使用して情報を探します。結果の最初の画面には 10 個のドキュメントがあり、2 番目の画面には 10 個のドキュメントがあります。
検索エンジンのインデックスに 10 件の関連ドキュメントがあることがわかっていると仮定します。
そう... 20 件の検索があり、そのうち 10 件が関連しています。
誰かがこれを理解するのを手伝ってくれますか?
ありがとう
再現率と精度は、結果の品質を測定します。それらを理解するために、最初に結果のタイプを定義しましょう。返されたリスト内のドキュメントは、次のいずれかです。
正しく分類された
誤分類
精度は次のとおりです。
|TP| / (|TP| + |FP|)
つまり、検索されたドキュメントのうち実際に関連性がある割合
リコールは次のとおりです。
|TP| / (|TP| + |FN|)
つまり、結果セットに含まれる関連ドキュメントの割合
したがって、あなたの例では、20 件の結果のうち 10 件が関連しています。これにより、0.5 の精度が得られます。関連文書がこれらの 10 件以下の場合、リコールは 1 です。
(情報検索システムのパフォーマンスを測定する場合、適合率と再現率の両方を考慮することだけが理にかなっています。結果をまったく返さない (つまり、偽のインスタンスが返されない => FP なし) または再現率が 100% の精度を簡単に得ることができます。すべてのインスタンスを返すことによって 100% の (つまり、関連するドキュメントが見落とされていない => FN がない)。
精度と再現率を理解するのが難しい場合は、これを読むことを検討してください
https://medium.com/seek-product-management/8-out-of-10-brown-cats-6e39a22b65dc