8

ベイズ分類子は、同じフレーズ「冷やしてお召し上がりいただけます」が、あるもの(ビール、ソーダ)に関連付けられている場合は「良い」であるが、他のもの(ステーキ、ピザ、ハンバーガー)?

私が疑問に思っているのは、ベイズ分類器をトレーニングすると(「ビールコールド」と「ソーダコールド」が「良い」)、「ステーキサーブコールド」と「ハンバーガーサーブドコールド」が「悪い」というトレーニングがキャンセルされるかどうかです。

または、ベイズは、それが何に関連付けられているかに応じて、「冷やして提供する」が「良い」または「悪い」可能性があることを(正しく)訓練できますか?

ベイズについて、ここや他の場所で多くの良い情報を見つけましたが、フレーズの良し悪しに対する答えが「状況によって異なります」であるこのタイプのアプリケーションに適しているかどうかを判断できませんでしたか?

4

2 に答える 2

6

単純ベイズ分類器は、属性間の独立性を前提としています。たとえば、次のデータがあるとします。

アップルフルーツレッドBAD
アップルフルーツグリーンBAD
バナナフルーツイエローGOOD
トマト野菜レッドGOOD

独立性とは、属性(名前、果物、色)が独立していることを意味します。たとえば、その「リンゴ」は「果物」または「野菜」のいずれかです。この場合、属性「name」と「fruit」は依存しているため、単純ベイズ分類器は単純すぎます(「リンゴフルーツイエロー」はリンゴであり、果物であるため、BADとして分類される可能性がありますが、すべてのリンゴではありません)果物?)。

あなたの元の質問に答えるために、単純ベイズ分類器は、クラス(GOODまたはBAD)が各属性に独立して依存していると想定していますが、そうではありません-私はピザが暑くてソーダが冷たいのが好きです。

編集:何らかの有用性があるが、理論的には多数のタイプIおよびタイプIIのエラーが発生する可能性がある分類器を探している場合、NaiveBayesはそのような分類器です。単純ベイズは何もないよりはましですが、単純ベイズ分類器を使用することには測定可能な価値があります。

于 2011-02-04T08:29:17.313 に答える
2

ダニエルが提案したほど早くベイズを解雇するつもりはありません。ベイズの品質(数学的に言えばパフォーマンス)は、何よりもトレーニングデータの量と品質、およびアルゴリズムを開発するときに行う仮定に依存します。

簡単な例を挙げると、{'ビールコールド' =>:good、'ピザコールド'=>:bad}のみを入力した場合、「コールド」という単語は実際には分類に影響しません。すべてのビールが良いとすべてのピザが悪いと判断するだけです(それがどれほど賢いかを見てください?:))

とにかく、答えはこれを詳細に説明するには短すぎます。彼がスパムフィルターをどのように開発したかについてのPaulGrahamのエッセイを読むことをお勧めします-彼は既製の分類器だけでなくベイズに基づいて独自のアルゴリズムを作成したことに注意してください。私の(これまでのところ短い)経験では、手元にある特定の問題のための特定のバージョンのアルゴリズムを開発する際に彼に従うほうがよいようです。そうすれば、さまざまなドメイン固有の仮定を制御できます。

興味があれば、ここで私の試み(ルビー)をフォローできます:http://arubyguy.com/2011/03/03/bayes-classification-update/

于 2011-03-04T08:32:21.780 に答える