1

ドキュメント分類のための NLP 手法があるかどうか疑問に思っていました。品詞のタグ付けによる n-gram の統計が役立つかどうか疑問に思っていました。このトピックに関する文献はあまり見つけられないようです..

ドキュメント分類の取り組みを強化する nlp 手法を見つけた人はいますか? このトピックに関する調査を知っていれば、それは素晴らしいことです。

ノート。私はこの質問を見ましたが、私のコーパスは大きすぎて、そこにある唯一の解決策は実用的ではありません.

4

1 に答える 1

3

見積もり:

しかし、私のコーパスは大きすぎて、そこにある唯一の解決策は実用的ではありません.

話題のモデリング!

ドキュメントの分類は、現在、私たちの研究グループや他の NLP グループで非常に注目されているトピックです。私たちの主な焦点は、確率論的トピック モデリングです。トピック モデルは、分類のためにドキュメントの大規模なアーカイブに隠されたテーマ構造を発見することを目的とした一連のアルゴリズムです。エキサイティングなのは、革新、発明、そして一般的な改善の余地がたくさんあるということです. アンサンブル、ハイブリッド、その他の統計手法など、取り組むべきものがたくさんあります。

Stanford Natural Language Processing Groupには、 Stanford Topic Modeling Toolboxと呼ばれるトピック モデルのプロトタイピング用の無料のオープン ソース ツールがあります。確認することをお勧めします。

出発点(かも?)

于 2015-09-24T10:22:41.873 に答える