ドキュメント分類のための NLP 手法があるかどうか疑問に思っていました。品詞のタグ付けによる n-gram の統計が役立つかどうか疑問に思っていました。このトピックに関する文献はあまり見つけられないようです..
ドキュメント分類の取り組みを強化する nlp 手法を見つけた人はいますか? このトピックに関する調査を知っていれば、それは素晴らしいことです。
ノート。私はこの質問を見ましたが、私のコーパスは大きすぎて、そこにある唯一の解決策は実用的ではありません.
ドキュメント分類のための NLP 手法があるかどうか疑問に思っていました。品詞のタグ付けによる n-gram の統計が役立つかどうか疑問に思っていました。このトピックに関する文献はあまり見つけられないようです..
ドキュメント分類の取り組みを強化する nlp 手法を見つけた人はいますか? このトピックに関する調査を知っていれば、それは素晴らしいことです。
ノート。私はこの質問を見ましたが、私のコーパスは大きすぎて、そこにある唯一の解決策は実用的ではありません.
見積もり:
しかし、私のコーパスは大きすぎて、そこにある唯一の解決策は実用的ではありません.
話題のモデリング!
ドキュメントの分類は、現在、私たちの研究グループや他の NLP グループで非常に注目されているトピックです。私たちの主な焦点は、確率論的トピック モデリングです。トピック モデルは、分類のためにドキュメントの大規模なアーカイブに隠されたテーマ構造を発見することを目的とした一連のアルゴリズムです。エキサイティングなのは、革新、発明、そして一般的な改善の余地がたくさんあるということです. アンサンブル、ハイブリッド、その他の統計手法など、取り組むべきものがたくさんあります。
Stanford Natural Language Processing Groupには、 Stanford Topic Modeling Toolboxと呼ばれるトピック モデルのプロトタイピング用の無料のオープン ソース ツールがあります。確認することをお勧めします。
出発点(かも?)