machine-learning - カテゴリへのテキスト分類

Question

私はテキスト分類の問題に取り組んでいます。単語のコレクションをカテゴリに分類しようとしています。はい、分類に使用できるライブラリはたくさんあります。それらを使用することを提案している場合は、答えないでください。

何を実装したいのか説明させてください。（例をとる）

単語のリスト：

java
プログラミング
言語
Cシャープ

カテゴリのリスト。

java
Cシャープ

ここでは、次のようにセットをトレーニングします。

javaはカテゴリ1にマップされます。java
プログラミングはカテゴリ1.javaにマップします
プログラミングはカテゴリ2.cにマップされます-シャープ
言語はカテゴリ1.javaにマップされます
言語はカテゴリ2.cにマップされます-シャープ
c-sharpはカテゴリ2にマップされます。c-sharp

これで、与えられたフレーズから「最高のJavaプログラミングブック」というフレーズができました。次の単語は、「単語のリスト」と一致します。

java
プログラミング

「プログラミング」には、「java」と「c-sharp」の2つのマップされたカテゴリがあるため、一般的な単語です。

「java」はカテゴリ「java」にのみマップされます。

したがって、このフレーズに一致するカテゴリは「java」です。

これが私の頭に浮かんだことです。このソリューションは問題ありません。実装できますか、あなたの提案は何ですか、私が見逃していること、欠陥などです。

score 4 · Accepted Answer

もちろん、これは実装できます。単純ベイズ分類器または線形SVMを適切なデータセット（JavaおよびC＃プログラミングブックのタイトルだと思います）でトレーニングする場合、「Java」という用語をJavaに、「C＃」および「.NET」をC＃に関連付けることを学ぶ必要があります。、および両方を使用した「プログラミング」。つまり、単純ベイズ分類器は、データセットが均等に分割されている場合、「プログラミング」などの一般的な用語について、JavaまたはC＃のほぼ均等な確率を学習する可能性があります。

score 1 · Accepted Answer

これを実装する簡単な方法は、ストレートアップのLucene（または任意のテキストインデックスエンジン）を使用することです。すべての「java」の例を含む単一のLuceneドキュメントと、「c＃」の例を含む別のドキュメントを作成し、両方をインデックスに追加します。新しいドキュメントを分類するには、またはドキュメント内のすべての用語をORして、インデックスに対してクエリを実行し、スコアが最も高いカテゴリを取得します。

score 0 · Accepted Answer

可能であれば、「集合知プログラミング」という本の「ドキュメントフィルタリング」の章にある「単純な分類器」というセクションを読んでください。例はPythonですが、それがあなたにとってそれほど問題にならないことを願っています。

machine-learning - カテゴリへのテキスト分類

3 に答える 3

Related

Reference