java - テキストの分類

Question

指定された URL が何らかのイベントであるかどうかを判断しようとしています。イベントとは、、などのイベントを意味します。これは、私が持っている予備的なアルゴリズムです。conferencesummitconvention

次の（最後を見て）トークンを見つけました。それらがページのコンテンツにある場合（サードパーティのライブラリを使用してHTMLからコンテンツを見つけます）、それをイベントとしてマークします。もちろん、これで終わりではありません。各トークンに重みを割り当てます。重みは、指定された URL がイベントであることをこのトークンがどれだけ強く伝えることができるかを示します。たとえば、コンテンツに見つかった場合、他の種類の記事でも頻繁に表示される可能性がconferenceあるイベントと比較して、それがイベントであることをより確実に伝えることができます。registration

そこで、各記事のスコアを次のように計算します: (コンテンツ内のトークンの頻度 * その重み) の合計。そして、このスコアが次の場合> EVENT_THRESHOLD、記事をイベントとしてマークします。このアプローチの問題点は次のとおりです。「イベント」が 20 回発生すると (信頼性が低い、つまり重みが低い)、スコアが跳ね上がりEVENT_THRESHOLD、記事がイベントとしてマークされます。これを実装するより良い方法はありますか? 車輪の再発明ではないことを願っています。ありがとう。PS私はデータサイエンスの専門家ではありません:(

イベントのトークン:

("event", 0.4),
("workshop", 1.0),
("registration", 0.4),
("register", 0.3), 
("conference", 1.0),
("tickets", 1.0), 
("summit", 0.5), 
("speaker", 0.5),
("training", 0.5),
("session", 0.4),
("convention", 1.0),
("webinar", 1.0),
("duration", 0.6)

score 2 · Accepted Answer

あなたは間違いなく車輪を再発明しています。生活をシンプルにしたい場合は、単純ベイズモデルを検討するのが最善です。モデルに非常に似ていますが、統計的基盤があります。

基本的な考え方は、イベントの種類ごとに事前確率を学習することですP(conference)。これは、基本的にクラスからのドキュメントの割合ですconference。さらに、特定のイベントのページに単語が含まれる確率を計算します。たとえば、この単語を含むページregistrationの割合として計算されます。注: 単語が含まれていない場合は、逆確率を組み込む必要があります。すべての確率の積により、ページが特定のイベントカテゴリに属する (正規化されていない) 確率が得られます。conferenceP(registration|conference)1-P(registration|conference)

という言葉を考えると registration、conference

conferenceドキュメントの確率の確率{registration} は

P(registration|conference)* (1-P(conference | conference) )*P(conference)

このドキュメントから推定される確率は

P(registration|conference)= 1
P(conference | conference) =1

ただし、マルチクラス SVM、デシジョンツリーなど、使用できるアルゴリズムは他にもたくさんあります。

java - テキストの分類

1 に答える 1

Related

Reference