問題タブ [precision-recall]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cluster-analysis - クラスタリングで適合率と再現率を計算する方法は?
クラスタリングアプリケーションで適合率と再現率を計算する方法が本当に混乱しています。
私は次の状況にあります:
2つのセットAとBが与えられます。各要素に一意のキーを使用することで、AとBのどちらの要素が一致するかを判断できます。機能に基づいてこれらの要素をクラスター化したい(もちろん、一意のキーは使用しません)。
クラスタリングを行っていますが、適合率の計算方法と再現率がわかりません。論文「クラスター検索のための拡張パフォーマンスグラフ」(http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf)によると、式は次のとおりです。
p=精度=関連する検索アイテム/取得アイテムおよびr=リコール=関連する検索アイテム/関連アイテム
どの要素がどのカテゴリに分類されるのか、実際にはわかりません。
これまでに行ったことは、クラスター内で一致するペアがいくつあるかを(一意キーを使用して)チェックしたことです。それはすでに精度またはリコールの1つですか?もしそうなら、どちらがそれであり、どのようにもう一方を計算できますか?
更新: http://mtg.upf.edu/files/publications/unsuperf.pdfで、「クラスターの数が決定されていない教師なしクラスタリングの評価のためのF値」というタイトルの別の論文を見つけました。
nlp - 固有表現抽出における適合率と再現率の計算
次に、固有表現抽出の結果を報告します。少し紛らわしいのは、適合率と再現率についての私の理解は、すべてのクラスの真陽性、真陰性、偽陽性、偽陰性を単純に合計することでした。
しかし、これは、誤分類ごとに1つの誤検知と1つの誤検知が同時に発生するため、今では信じられないようです(たとえば、「A」とラベル付けされているはずのトークンは、次の場合は誤検知です。 「A」および「B」の誤検知)。したがって、すべてのクラスの誤検知と誤検知の数は同じになります。これは、精度が(常に!)リコールに等しいことを意味します。これは単純に真実ではないので、私の推論に誤りがあり、それはどこにあるのだろうかと思います。それは確かに非常に明白で簡単なことですが、今は私を逃れています。
cluster-analysis - ラピッドマイナーのリコールと精度
列Aにいくつかのラベル(クラスターラベルと呼びます)と列Bにいくつかの属性(クラスターコンポーネントと呼びます)を含むExcelのデータセットがあります。これらのデータは、最良のクラスタリング結果を示しています。
しかし、rapidminer でこれらのデータを使用して、他のクラスタリング手法の再現率と適合率を計算する方法がわかりません。
誰でも私を助けることができますか?
java - レコメンダー システム: シンプルなユーザー ベースの共同フィルタリングにより、精度と再現率を評価します。
ユーザーベースの協調フィルタリングの Java での非常に単純な実装を探しています。この CF の精度と再現率を movielens データセットで評価したいと思います。パフォーマンス (F1) は約 20 ~ 30% (ピアソンの類似性と KNN を使用) であることがわかりました。
この単純なフレームワークは、精度とリコール コードの評価とともに存在しますか?
r - Rで精度、再現率、F1スコアを簡単にカウントする方法
私はrpart
R で分類器を使用しています。問題は、トレーニング済みの分類器をテスト データでテストしたいということです。これで問題ありませんpredict.rpart
。関数を使用できます。
しかし、精度、再現率、F1 スコアも計算したいと思います。
私の質問は、それらの関数を自分で作成する必要がありますか、それとも R またはそのための CRAN ライブラリのいずれかに関数がありますか?
machine-learning - マルチクラスマルチラベル分類の適合率/再現率
マルチクラスのマルチラベル分類、つまり、2 つ以上のラベルがあり、各インスタンスが複数のラベルを持つことができる分類の精度と再現率の測定方法を計算する方法を考えています。
java - ロガーを使用して lucene で精度と再現率を計算する
元のコードの適合率と再現率を測定するために、lucene ベンチマークを使用しました。トピック ファイルは次の 2 つです。
および qrelsFile:
私が理解しているように、これらの 2 つのファイルはテキスト ファイルです。しかし、これら 2 つのファイルを埋めるために必要なものがわかりません。手動で記述されているか、必要な情報を入力するコードがあります。
lucene プログラムでの精度と再現率の測定について何か助けが必要です
ありがとう
machine-learning - 適合率-再現率曲線に関連するドキュメントがある場合は、さらに多くの提案を返す必要がありますか?
適合率-再現率曲線をプロットしようとしていますが、関連するドキュメントよりも多くのドキュメントの推奨事項があります。トレーニングの例として、A、C、Eの3つの関連ドキュメントがあるとします。ただし、AからZまでのすべてのドキュメントである可能性があります。次に、これを次のようにベクトル化します。
オリジナル=[1、0、1、0、1、...]
そして、私の予測のA、C、Eの値が最大で、他のすべてのドキュメントの値が小さいとしましょう。
予測=[0.9、0.1、0.8、0.1、0.7、...]
次に、最初に{0.9}の予測のみを使用し、次に{0.9、0.8}と{0.9、0.8、0.7}の予測を使用して、上位kの予測の適合率と再現率を計算します。それまでの精度は1ですが、その後は関連するドキュメントがなくなったため、精度が下がるだけです。{0.9、0.8、0.7、0.1、...}を使用して適合率/再現率の計算を続けるのは正しいですか?
推奨事項{0.9、0.8、0.7}を返すと、精度が1であるだけでなく、リコールも1であるという質問をして、欠陥を見つけたと思います。それなら、書類を返却するのをやめるべきですよね?
編集:説明では、より多くのドキュメントを返すことができますが、関連するすべてのドキュメントを返した後、リコールは1のままであり、精度は直線的に低下します。
machine-learning - 適合率または再現率は大声で話しますか?
「A」と「B」の2つのアプローチを使用して、テキスト分類研究プロジェクトを評価しているとします。アプローチ「A」を使用すると、精度がax%向上しますが、「B」を使用すると、リコールがax%向上します。どうすればAまたはBのアプローチが優れていると言えますか?