machine-learning - テキストマイニング結果の適合率と再現率を計算する

Question

私は、テキストマイニングを使って病気に関連する遺伝子を見つけるプロジェクトを行っています。これには1000記事を使用しています。約129個の遺伝子名を取得しました。実際のデータセットには、約 1000 のエントリが含まれています。ここで、メソッドの適合率と再現率を計算したいと思います。比較してみると、129個の遺伝子のうち、72個が正しいことがわかりました。したがって、精度 = 72/129 です。それが正しいか？では、どのようにリコールを計算できますか? 助けてください

score 0 · Accepted Answer

主な問題は、私が検討している記事には、データセットが小さいため、最初にリストされたすべての遺伝子名が含まれていない可能性があることでした. したがって、再現率を計算する際に、分母を 1000 と見なす代わりに、遺伝子の元のデータベースと記事を比較して、最初に関連付けられた遺伝子が文献にいくつ存在するかを調べることができます。つまり、関連する遺伝子が 1000 個ある場合、検討しているデータセットに含まれる遺伝子の数を 1000 個から調べます。300 の場合、分母を 1000 ではなく 300 に設定します。これにより、リコールが得られます。

score 0 · Accepted Answer

精度と再現率に関するウィキペディアの記事が役立つかもしれません。定義は次のとおりです。

Precision: tp / (tp+fp)
Recall: tp / (tp + fn)

tp真陽性 (疾患に関連し、発見した遺伝子) はどこにfpあり、偽陽性 (発見したが実際には疾患に関連していない遺伝子) はどこにfnあり、偽陰性 (実際に疾患に関連している遺伝子) はどこにあるのか。病気ですが、あなたはそれらを見つけられませんでした）。

あなたが投稿した数字が何を表しているのかよくわかりません。病気に本当に関連する遺伝子を知っていますか?

ほとんどの場合、精度を計算しています。

Accuracy = (tp + fp) / (Total Number)

machine-learning - テキスト マイニング結果の適合率と再現率を計算する

2 に答える 2

Related

Reference

machine-learning - テキストマイニング結果の適合率と再現率を計算する