提供されたテキストの関心カテゴリ/トピックを識別しようとするモデルを構築しようとしています。例えば:
「以前はフットボールの試合を楽しんでいました。」
次のような最上位カテゴリに解決されます。
"スポーツ"。
私がここで達成しようとしていることの正しい用語が何であるかわからないので、Google は役立つ可能性のあるライブラリを見つけていません。それを念頭に置いて、私のアプローチは次のようになります。
- テキストから特徴を抽出します。タグ付けを使用して、各機能を分類/名前/場所を識別します。おそらくこれには NTLK を使用するか、Topia を使用します。
- インタレスト カテゴリ (「スポーツ」、「ビデオ ゲーム」、「政治」など) ごとに単純ベイズ分類器を実行し、各カテゴリの関連性 % を取得します。
- 精度が最も高いカテゴリを特定し、テキストを分類します。
私のアプローチでは、関心カテゴリごとに個別のコーパスを用意する必要があり、精度はかなり悲惨なものになると確信しています。それほど正確ではないことは理解しています。
一般的に、私が達成しようとしていることの実行可能性に関するアドバイスを探していますが、私の質問の要点は次のとおりです。a) 私のアプローチは正しいですか? b) 役立つ可能性のある図書館/リソースはありますか?