3

Jacob Perkins の著書「Python Text Processing with NLTK 2.0 Cookbook」による NLTK とテキストの分類に慣れてきました。

私のコーパス ドキュメント/テキストはそれぞれテキストの段落で構成されているため、それぞれが別のファイルではなく別のファイル行にあります。このような段落/行の数は約 200 万です。したがって、機械学習インスタンスには約 200 万あります。

ファイルの各行 (テキストの段落 - ドメイン タイトル、説明、キーワードの組み合わせ) は、特徴抽出の対象です: 機械学習アルゴリズムのインスタンスにするためのトークン化など。

私はそのような 2 つのファイルを持っており、すべての長所と短所が含まれています。

CategorizedCorpusReader にロードするにはどうすればよいですか? 出来ますか?

以前に scikit などの他のソリューションを試しましたが、最終的に NLTK を選択して、結果を簡単に開始できるようにしました。

4

1 に答える 1

2

次の 2 つのファイルがあるとします。

file_pos.txt、file_neg.txt

from nltk.corpus.reader import CategorizedCorpusReader
reader = CategorizedCorpusReader('/path/to/corpora/', \
                                 r'file_.*\.txt', \
                                 cat_pattern=r'file_(\w+)\.txt')

この後、通常のコーパス関数を次のように適用できます。

>>> reader.categories()
['neg', 'pos']
>>> reader.fileids(categories=['neg'])
['file_neg.txt']

tagged_sents、tagd_words などと同様です。

カスタム コーパスの作成に関するこのチュートリアルをお楽しみください: https://www.packtpub.com/books/content/python-text-processing-nltk-20-creating-custom-corpora

于 2015-03-04T10:39:44.727 に答える