2

元のコードの適合率と再現率を測定するために、lucene ベンチマークを使用しました。トピック ファイルは次の 2 つです。

QualityQuery qqs[] = qReader.readQueries( new BufferedReader(new FileReader(topicsFile)));

および qrelsFile:

Judge judge = new TrecJudge(new BufferedReader(new FileReader(qrelsFile)));

私が理解しているように、これらの 2 つのファイルはテキスト ファイルです。しかし、これら 2 つのファイルを埋めるために必要なものがわかりません。手動で記述されているか、必要な情報を入力するコードがあります。

lucene プログラムでの精度と再現率の測定について何か助けが必要です

ありがとう

4

1 に答える 1

1

TrecJudge の Javadoc http://lucene.apache.org/core/old_versioned_docs/versions/3_4_0/api/all/org/apache/lucene/benchmark/quality/trec/TrecJudge.html

与えます:

判断のための Trec 形式に基づいて、特定のドキュメントが特定の品質クエリに関連しているかどうかを判断します。

TREC (http://trec.nist.gov/) は、情報検索の競争を行う一連の会議です。

あなた自身の探偵の仕事をしなければならないかもしれないと思いますが、これは私にとって興味深いものであり、さらに情報を追加するかもしれません.

一般に、ベンチマークの戦略は次のようになります。

  • 関心のある分野に関連するコーパスを提供する
  • その一部に注釈を付けて、何をリコールする必要があるかを示します。これは 2 つのセットである可能性があります。1 つは情報あり (ポジティブ) で、もう 1 つは情報なし (ネガティブ) です。
  • これを 2 つの部分に分割します。1 つはアプリケーションのトレーニング用で、もう 1 つはテスト用です (さらに高度なアプローチが必要な場合があります)。
  • テスト セットに対して評価ソフトウェアを実行します。

フォーマットを TREC フォーマットで提供する必要があると思います。

于 2012-05-06T12:52:36.403 に答える