-1

は焦点を絞った Web クロール (別名、トピック Web クロール) で見てきました。評価指標 - 収穫率 - は次のように定義されてます。

たとえば、100 ページをクロールした後、80 の真陽性が得られた場合、その時点でのクローラーの収穫率は 0.9 です。ただし、クローラーは、クロール ドメインに完全に関連しているが、評価比率には含まれていない一部のページをクロールから除外した可能性があります。これは何ですか?その評価指標を改善して、完全に関連性のある見逃したページを含めることはできますか? この配慮は重要ですか?

4

1 に答える 1

1

フォーカス クロールの最も基本的な評価は、F 値に集計できる精度と再現率です。

http://en.wikipedia.org/wiki/Precision_and_recall

http://en.wikipedia.org/wiki/F1_score

ページが特定のキーワードにどのように関連しているかに関心がある場合は、tf/idf (用語の頻度 - 逆ドキュメントの頻度) を使用します。

http://en.wikipedia.org/wiki/Tf *idf

于 2012-06-25T07:14:12.737 に答える