CategorizedPlaintextCorpusReader
正規表現とPythonに関係する問題が少し発生しています。
カスタム分類されたコーパスを作成し、その上で単純ベイズ分類器をトレーニングしたいと思います。私の問題は次のとおりです。「pos」と「neg」の2つのカテゴリが必要です。ポジティブファイルはすべて1つのディレクトリにmain_dir/pos/*.txt
あり、ネガティブファイルは別のディレクトリにありmain_dir/neg/*.txt
ます。
を使用しCategorizedPlaintextCorpusReader
て、posディレクトリ内のすべてのポジティブファイルをロードしてラベルを付け、ネガティブファイルに対して同じことを行うにはどうすればよいですか?
Movie_reviews
注意:セットアップはコーパス( )とまったく同じ~nltk_data\corpora\movie_reviews
です。