2

私は一般的なNLPとPythonで使用するための具体的なnltkについて読み込もうとしています。探しているものがそこにあるのか、それとも開発する必要があるのか​​はわかりません。

私はさまざまなファイルからテキストを収集するプログラムを持っています。テキストは非常にランダムで、さまざまなことについて話します。各ファイルには1段落または最大3つが含まれています。私のプログラムはファイルを開き、テーブルに保存します。

私の質問は、段落の内容のタグを推測できますか?誰かが既存の技術やアプローチを知っているなら、私はそれを本当に感謝します。

ありがとう、

4

2 に答える 2

1

あなたのタスクは「ドキュメント分類」と呼ばれ、nltkブックにはその章全体があります。私はそれから始めます。

それはすべて、タグを割り当てるための基準によって異なります。ドキュメントを既存のタグのセットと照合することに興味がありますか、それともトピックの抽出に興味がありますか(テキスト内で最も重要なN個の単語またはフレーズを選択してください)。

于 2012-06-28T14:39:26.260 に答える
0

分類子をトレーニングする必要があります。開発が最も簡単な分類子 (NLTK が提供するので、実際に開発する必要はありません) は単純なベイジアンです。問題は、観察のコーパスを手動で分類し、プログラムに特定の段落に最適なタグを推測させる必要があることです (言うまでもなく、トレーニング コーパスが大きいほど、より正確な分類器になります。正確さの 80-85%)。ドキュメントを見てください。

于 2012-06-16T16:29:12.177 に答える