2

約1568行で構成されるデータのトレーニングセットがあり、各行にはクラス属性の7つの値の1つがあります。このデータを168行の2番目のデータセットでテストしようとしています。

しかし、私は質問があります。Wekaは、「クラスの事前情報」は次のとおりであると報告しています。

141.0
169.0
225.0
197.0
421.0
281.0
141.0

私のトレーニングセットには、クラス属性値ごとに次の数のインスタンスがあります。

140
168
224
196
420
280
140

クラスの事前情報がクラス属性の値ごとのトレーニングセットの行数と非常に密接に関連していることは別として、誰かがそれらが何であるか、そしてそれらが実際に何を表しているかを教えてもらえますか?

テストセットには、クラス属性値ごとに次の数のインスタンスがあります。

15
18
24
21
45
30
15
4

1 に答える 1

2

クラス事前確率は、母集団からインスタンスをランダムにサンプリングすることで、(インスタンスの属性に関係なく) 特定のクラスが生成される確率の推定値です。Weka は、トレーニング データが母集団からランダムに抽出され、トレーニング セット内のクラスの比率が、サンプリングされた母集団における相対的な存在量を示すものであると想定しています。Weka が報告しているのは事前確率ではなく、事前確率の計算に使用されたカウントであることに注意してください。各カウントに 1 を追加する理由は、特定のクラスがトレーニング データで表されない状況でカウントがゼロになるのを防ぐためです。したがって、Weka は各クラスの実際の事前確率を次のように計算する必要があります。

P(c_i) = n_i / (N + C)

ここn_iで、 はクラスのサンプル数、はサンプルの総数i、はクラスの数です。NC

事前確率が何に使用されるかの非常に単純な例として、人が熱と頭痛を持っていることだけを知っている病気を分類することを考えてみましょう。これらの症状は、インフルエンザとエボラウイルスの両方の徴候です。しかし、エボラ出血熱よりもはるかに多くの人がインフルエンザに感染しているため (インフルエンザの事前確率はエボラ出血熱よりもはるかに高い)、これらの症状に基づいて、この病気をインフルエンザとして分類します。

Weka は、デフォルトの事前確率を更新またはオーバーライドするメソッドを提供します。事前確率が分類でどのように使用されるかの数学的な詳細を確認するには、ベイズの定理を参照してください。

于 2013-01-25T15:02:01.207 に答える