php - 特定のテキストを異なるカテゴリに自動的に割り当てる方法は?

Question

私は、次のようないくつかのカテゴリがあるこのプロジェクトに取り組んでいます

ビューティーアクティビティショッピング

カテゴリはタグ付けされます。たとえば、タグの一部は次のとおりです。

Beauty => Haircut, spa, manicure, personal trainer
Activities => personal trainer, biking
Shopping => Jewelery, Shirts, Socks

タグには順序があり、カテゴリとの関連性を示します。たとえば、ヘアカットという単語が含まれるテキストは美容関連である可能性が最も高いため、ヘアカットは美容で最初に来ます。

ご覧のとおり、「パーソナルトレーナー」タグは複数のカテゴリに属しているため、テキストにパーソナルトレーナーが含まれている場合は、美容またはアクティビティに関連している可能性があります。

また、各タグがテキスト内で何回見つかったかを記録するので、各タグには見つかった値が含まれています。

新しいテキストを処理するときは、その中のすべてのタグを検索し、それらが指定されたテキストに何回出現するかを確認します。サンプルテキストの結果は次のようになります。

Haircut => 4
personal trainer => 1
manicure => 1
spa => 0

これを見ると、テキストが Beauty に属していることがわかります。

ここに私の質問があります: 1- 指定された入力と、カテゴリが関連付けられているタグの配列を取得することによって、このテキストが属するカテゴリをプログラムでどのように決定しますか? これは良い考えですか？これを行うよりエレガントな方法はありますか？

2-これはこれを行う良い方法ですか、それともより良いアルゴリズムがありますか? これに対処するときに、lucene のようなものか、よりインテリジェントなアルゴリズムが機能するのではないかと考えていました。

score 1 · Accepted Answer

クラスを定義できれば、Naive Bayes に基づくメソッドで仕事ができます。これは、一般的に使用される分類子の 1 つです。

プログラムによって自動的に定義されたクラスが必要な場合、現在うまく機能しているものはありません。

1 に答える 1