指定された URL が何らかのイベントであるかどうかを判断しようとしています。イベントとは、、などのイベントを意味します。これは、私が持っている予備的なアルゴリズムです。conference
summit
convention
次の(最後を見て)トークンを見つけました。それらがページのコンテンツにある場合(サードパーティのライブラリを使用してHTMLからコンテンツを見つけます)、それをイベントとしてマークします。もちろん、これで終わりではありません。各トークンに重みを割り当てます。重みは、指定された URL がイベントであることをこのトークンがどれだけ強く伝えることができるかを示します。たとえば、コンテンツに見つかった場合、他の種類の記事でも頻繁に表示される可能性がconference
あるイベントと比較して、それがイベントであることをより確実に伝えることができます。registration
そこで、各記事のスコアを次のように計算します: (コンテンツ内のトークンの頻度 * その重み) の合計。そして、このスコアが次の場合> EVENT_THRESHOLD
、記事をイベントとしてマークします。このアプローチの問題点は次のとおりです。「イベント」が 20 回発生すると (信頼性が低い、つまり重みが低い)、スコアが跳ね上がりEVENT_THRESHOLD
、記事がイベントとしてマークされます。これを実装するより良い方法はありますか? 車輪の再発明ではないことを願っています。ありがとう。PS私はデータサイエンスの専門家ではありません:(
イベントのトークン:
("event", 0.4),
("workshop", 1.0),
("registration", 0.4),
("register", 0.3),
("conference", 1.0),
("tickets", 1.0),
("summit", 0.5),
("speaker", 0.5),
("training", 0.5),
("session", 0.4),
("convention", 1.0),
("webinar", 1.0),
("duration", 0.6)