適合率-再現率曲線をプロットしようとしていますが、関連するドキュメントよりも多くのドキュメントの推奨事項があります。トレーニングの例として、A、C、Eの3つの関連ドキュメントがあるとします。ただし、AからZまでのすべてのドキュメントである可能性があります。次に、これを次のようにベクトル化します。
オリジナル=[1、0、1、0、1、...]
そして、私の予測のA、C、Eの値が最大で、他のすべてのドキュメントの値が小さいとしましょう。
予測=[0.9、0.1、0.8、0.1、0.7、...]
次に、最初に{0.9}の予測のみを使用し、次に{0.9、0.8}と{0.9、0.8、0.7}の予測を使用して、上位kの予測の適合率と再現率を計算します。それまでの精度は1ですが、その後は関連するドキュメントがなくなったため、精度が下がるだけです。{0.9、0.8、0.7、0.1、...}を使用して適合率/再現率の計算を続けるのは正しいですか?
推奨事項{0.9、0.8、0.7}を返すと、精度が1であるだけでなく、リコールも1であるという質問をして、欠陥を見つけたと思います。それなら、書類を返却するのをやめるべきですよね?
編集:説明では、より多くのドキュメントを返すことができますが、関連するすべてのドキュメントを返した後、リコールは1のままであり、精度は直線的に低下します。