私は、次のようないくつかのカテゴリがあるこのプロジェクトに取り組んでいます
ビューティー アクティビティ ショッピング
カテゴリはタグ付けされます。たとえば、タグの一部は次のとおりです。
Beauty => Haircut, spa, manicure, personal trainer
Activities => personal trainer, biking
Shopping => Jewelery, Shirts, Socks
タグには順序があり、カテゴリとの関連性を示します。たとえば、ヘアカットという単語が含まれるテキストは美容関連である可能性が最も高いため、ヘアカットは美容で最初に来ます。
ご覧のとおり、「パーソナル トレーナー」タグは複数のカテゴリに属しているため、テキストにパーソナル トレーナーが含まれている場合は、美容またはアクティビティに関連している可能性があります。
また、各タグがテキスト内で何回見つかったかを記録するので、各タグには見つかった値が含まれています。
新しいテキストを処理するときは、その中のすべてのタグを検索し、それらが指定されたテキストに何回出現するかを確認します。サンプル テキストの結果は次のようになります。
Haircut => 4
personal trainer => 1
manicure => 1
spa => 0
これを見ると、テキストが Beauty に属していることがわかります。
ここに私の質問があります: 1- 指定された入力と、カテゴリが関連付けられているタグの配列を取得することによって、このテキストが属するカテゴリをプログラムでどのように決定しますか? これは良い考えですか?これを行うよりエレガントな方法はありますか?
2-これはこれを行う良い方法ですか、それともより良いアルゴリズムがありますか? これに対処するときに、lucene のようなものか、よりインテリジェントなアルゴリズムが機能するのではないかと考えていました。