分類にはエクスプローラー機能を使用しています。私の .arff データ ファイルには、数値とバイナリ値の 10 個の特徴があります。(インスタンスの ID のみが公称です)。約 16 個のインスタンスがあります。予測するクラスははい/いいえです。単純ベイズを使用しましたが、結果を解釈できません。単純ベイズ分類の結果を解釈する方法を知っている人はいますか?
2 に答える
Naive Bayes は重要な機能を選択しません。あなたが言及したように、単純ベイズ分類器のトレーニングの結果は、すべての機能の平均と分散です。新しいサンプルの「はい」または「いいえ」への分類は、サンプルの特徴の値が「はい」または「いいえ」のトレーニング済み特徴の平均および分散に最もよく一致するかどうかに基づいています。
他のアルゴリズムを使用して、最も有益な属性を見つけることができます。その場合、WEKA の J48 ( C4.5 決定木アルゴリズムのオープンソース実装) などの決定木分類器を使用することをお勧めします。結果のディシジョン ツリーの最初のノードは、どの特徴が最も予測力があるかを示します。
さらに優れています (Rushdi Shams が別の投稿で述べているように)。Weka の Explorer は、データセット内で最も有用な属性を見つける目的のビルド オプションを提供します。これらのオプションは、Select attributes
タブの下にあります。
Sicco が言ったように、NB は最高の機能を提供することはできません。分岐によって重要な機能がわかる場合があるため、ディシジョン ツリーは適切な選択ですが、常にそうとは限りません。シンプルな機能セットから複雑な機能セットまでを処理するには、WEKA の SELECT ATTRIBUTE タブを使用できます。そこでは、検索方法と属性評価器を見つけることができます。タスクに応じて、最適なものを選択できます。それらは、特徴のランキングを提供します (トレーニング データまたは k 分割交差検証のいずれかから)。個人的には、データセットが過剰適合している場合、決定木のパフォーマンスが低下すると考えています。その場合、機能のランキングは、最適な機能を選択するための標準的な方法です。ほとんどの場合、インフォゲインとランカー アルゴリズムを使用します。属性が 1 から k までランク付けされているのを見ると、必要な機能と不要な機能を把握するのに非常に役立ちます。