machine-learning - hasDate、hasLocation、最初の単語などの機能を備えた Naive Bayes テキスト分類子

Question

Naive Bayes テキスト分類器に取り組もうとしています。私はすでにコードでバッグオブワードアプローチを作成しました。私のドキュメントでは、特定の分類に固有の多くの機能に気付きました。これらの機能の例には、ドキュメントに場所、日付、または名前が含まれているかどうかが含まれます。これらはすべてブール値であり、テキストが分類される前に決定できます。最初の単語は何かなど、他にも特徴があります。

基本的な単純ベイズのアプローチを理解しています。しかし、これらの機能を分類子に組み込む方法に関する情報は見つかりませんでした。

私の質問は、上記の機能を言葉の袋に含めることが可能かどうかです。もしそうなら、私が従うことができるこの例があります。これが当てはまらない場合、あなたは何をお勧めしますか？

ありがとうございました

score 3 · Accepted Answer

Naive Bayes フレームワーク内では、bag-of-words 表現に基づかない機能を追加することを妨げるものは何もありません。単語の袋の特徴に基づいて、クラスの可能性 p(document|class_1) = l_1 があるとします。一部のバイナリ機能 b_1 と b_2 も分類に役立つと考える理由があります (これらは、例を具体的にするために、それぞれ日付と時刻を含むドキュメントにすることができます)。

確率 p(b_1 = 1 | class_1) = (b_1 = 1 のクラス 1 のドキュメント数) / (クラス 1 のドキュメント数)---p(b_1 = 0 | class_1) = 1 - p( b_1 = 1 | クラス_1)。クラス 2 と、両方のクラスのフィーチャ b_2 に対して同じことを行います。Naive Bayes は機能の独立性を前提としているため、これらの機能を分類ルールに追加するのは特に簡単です。そう：

p( class_1 | ドキュメント ) \propto p(class_1) x l_1 xp(b_1|class_1) xp(b_2|class_1)

ここで、l_1 は以前と同じことを意味し (BOW 機能に基づく可能性)、p(b_i|class_1) 項については、何に応じて p(b_i=1|class_1) または p(b_i=0|class_1) 項のいずれかを使用します。 b_i の値は実際にありました。これは、同じ方法で非バイナリ機能に拡張でき、心ゆくまで追加を続けることができます (ただし、機能間の独立性を想定していることに注意する必要があり、そうでない分類器に切り替えたい場合があります)。この仮定をしないでください）。

machine-learning - hasDate、hasLocation、最初の単語などの機能を備えた Naive Bayes テキスト分類子

1 に答える 1

Related

Reference