問題は、文字列のリストが 2 つあることです。一方のリストは他方のリストの概算であり、概算の精度を測定する何らかの方法が必要です。
近似を採点するその場しのぎの方法として、文字列に対応する数値に基づいてソートした後、各リスト (近似と答え) を 3 つのパーティション (高、中、低) にバケット化しました。次に、近似のすべての要素を比較して、正しいリストの同じパーティションに文字列が存在するかどうかを確認します。
正しく分類された文字列の数を合計し、文字列の総数で割ります。これが見積もりの精度を測定する非常に大まかな方法であることは理解しており、より良い代替手段が利用可能であることを望んでいました. これは、より大きな作業のごく一部に過ぎず、一からやり直す必要がないようにしたいと考えていました。
編集:私は十分に明確ではなかったと思います。2 つのリストが完全に等しい必要はありません。リストが類似していることを示す何らかの尺度が必要です。たとえば、私たちが採用した高-中-低 (HML) アプローチは、推定されたリストが十分に類似していることを示しています。このアプローチの欠点は、推定リストの項目が「高」ブラケットの下部にあり、実際のリストではその項目が中間セットの上部にある場合、スコア アルゴリズムが配信に失敗することです。
HML アプローチに加えて、各パーティションの下位 20% が次のパーティションの上位 20% と比較されるか、これらの線に沿ったものである可能性があります。
助けてくれてありがとう!!