python - Python NTL - テキストの関心 / トピックの特定

Question

提供されたテキストの関心カテゴリ/トピックを識別しようとするモデルを構築しようとしています。例えば：

「以前はフットボールの試合を楽しんでいました。」

次のような最上位カテゴリに解決されます。

"スポーツ"。

私がここで達成しようとしていることの正しい用語が何であるかわからないので、Google は役立つ可能性のあるライブラリを見つけていません。それを念頭に置いて、私のアプローチは次のようになります。

私のアプローチでは、関心カテゴリごとに個別のコーパスを用意する必要があり、精度はかなり悲惨なものになると確信しています。それほど正確ではないことは理解しています。

一般的に、私が達成しようとしていることの実行可能性に関するアドバイスを探していますが、私の質問の要点は次のとおりです。a) 私のアプローチは正しいですか? b) 役立つ可能性のある図書館/リソースはありますか?

score 4 · Accepted Answer

常に ed chens bolgが良いスタートであるため、Latent Dirichlet Allocation を確認してください。これにより、ラベルのないカテゴリが得られます。

2 に答える 2