私はテキスト分類の問題に取り組んでいます。単語のコレクションをカテゴリに分類しようとしています。はい、分類に使用できるライブラリはたくさんあります。それらを使用することを提案している場合は、答えないでください。
何を実装したいのか説明させてください。(例をとる)
単語のリスト:
- java
- プログラミング
- 言語
- Cシャープ
カテゴリのリスト。
- java
- Cシャープ
ここでは、次のようにセットをトレーニングします。
- javaはカテゴリ1にマップされます。java
- プログラミングはカテゴリ1.javaにマップします
- プログラミングはカテゴリ2.cにマップされます-シャープ
- 言語はカテゴリ1.javaにマップされます
- 言語はカテゴリ2.cにマップされます-シャープ
- c-sharpはカテゴリ2にマップされます。c-sharp
これで、与えられたフレーズから「最高のJavaプログラミングブック」というフレーズができました。次の単語は、「単語のリスト」と一致します。
- java
- プログラミング
「プログラミング」には、「java」と「c-sharp」の2つのマップされたカテゴリがあるため、一般的な単語です。
「java」はカテゴリ「java」にのみマップされます。
したがって、このフレーズに一致するカテゴリは「java」です。
これが私の頭に浮かんだことです。このソリューションは問題ありません。実装できますか、あなたの提案は何ですか、私が見逃していること、欠陥などです。