1

私が質問しようとしているのは、サンプル データまたは Web サービスを使用した文章に対する NLTK python を使用した投稿の感情分析に非常に似ているように聞こえるかもしれません。、しかし、テキストからの文の解析とトークン化は完了しました。私の質問は

  1. これまで NLTK の映画レビューの例で見た例はどれも、私の問題に最も似ているように見えますが、movie_review の場合、2 つのフォルダー pos と neg があり、そこにテキストが保存されているため、トレーニング テキストは既にフォームになっています。巨大なテキストを分類するにはどうすればよいですか。データを手動で読み取り、それらを 2 つのフォルダーに保存しますか。それはコーパスを作るか。その後、例の movie_review データと同じように使用できますか?

2.上記の質問に対する答えが「はい」の場合、ツールを使用してそのタスクを高速化する方法はありますか? たとえば、コンテンツに「Monty Python」が含まれるテキストのみを操作したいとします。そして、それらを手動で分類し、pos と neg フォルダーに保存します。それは動作しますか?

私を助けてください

4

1 に答える 1

3

はい、分類子をトレーニングするにはトレーニング コーパスが必要です。または、センチメントを検出する別の方法が必要です。

トレーニング コーパスを作成するには、手動で分類するか、他の人に分類してもらうか (これには機械的な turk が一般的です)、コーパス ブートストラップを行うことができます。感情については、肯定的な言葉と否定的な言葉の 2 つのキーワード リストを作成する必要があります。これらを使用して、最初のトレーニング コーパスを作成し、手動で修正してから、分類子をトレーニングできます。これは反復プロセスであり、覚えておくべき重要なことは、「ガベージ イン、ガベージ アウト」です。つまり、トレーニング コーパスが間違っていれば、分類器が正しいとは期待できません。

于 2012-05-20T23:52:55.110 に答える