Jacob Perkins の著書「Python Text Processing with NLTK 2.0 Cookbook」による NLTK とテキストの分類に慣れてきました。
私のコーパス ドキュメント/テキストはそれぞれテキストの段落で構成されているため、それぞれが別のファイルではなく別のファイル行にあります。このような段落/行の数は約 200 万です。したがって、機械学習インスタンスには約 200 万あります。
ファイルの各行 (テキストの段落 - ドメイン タイトル、説明、キーワードの組み合わせ) は、特徴抽出の対象です: 機械学習アルゴリズムのインスタンスにするためのトークン化など。
私はそのような 2 つのファイルを持っており、すべての長所と短所が含まれています。
CategorizedCorpusReader にロードするにはどうすればよいですか? 出来ますか?
以前に scikit などの他のソリューションを試しましたが、最終的に NLTK を選択して、結果を簡単に開始できるようにしました。