私が質問しようとしているのは、サンプル データまたは Web サービスを使用した文章に対する NLTK python を使用した投稿の感情分析に非常に似ているように聞こえるかもしれません。、しかし、テキストからの文の解析とトークン化は完了しました。私の質問は
- これまで NLTK の映画レビューの例で見た例はどれも、私の問題に最も似ているように見えますが、movie_review の場合、2 つのフォルダー pos と neg があり、そこにテキストが保存されているため、トレーニング テキストは既にフォームになっています。巨大なテキストを分類するにはどうすればよいですか。データを手動で読み取り、それらを 2 つのフォルダーに保存しますか。それはコーパスを作るか。その後、例の movie_review データと同じように使用できますか?
2.上記の質問に対する答えが「はい」の場合、ツールを使用してそのタスクを高速化する方法はありますか? たとえば、コンテンツに「Monty Python」が含まれるテキストのみを操作したいとします。そして、それらを手動で分類し、pos と neg フォルダーに保存します。それは動作しますか?
私を助けてください