多くの投稿を読んだ後でも、nltk でカスタム コーパスを作成することにまだ問題があります。タグ付きの文のテキスト ファイルがあり、各項目は ... word/tag の形式の文字列です。これを使ってタガーを訓練したい。さまざまなタイプのタガーをトレーニングする train-tagger という nltk パッケージを使用しようとしています。2つの質問。1) train-tagger はテキスト ファイルを入力として使用できますか、それとも nltk コーパス オブジェクトのみを使用できますか? 2) コーパスのみを使用する場合、テキスト ファイルからコーパスを作成するにはどうすればよいですか? コーパスを作成するために次のコードを試しました...
import nltk
from nltk.corpus import PlaintextCorpusReader
corpus_root = './'
newcorpus = PlaintextCorpusReader(corpus_root, '.*')
print newcorpus.raw('IOBHarrisonsTraining.txt') .... this is my tagged text file
動作しているようですが、出力が見つかりません。このコードが実行されるフォルダー、または nltk_data/corpora のいずれかにコーパスが作成されるはずですが、何も見つかりません。私が作成した「newcorpus」を保存するはずのコーパスモジュールにメソッドはありますか? 次に、train-tagger への入力として使用できますか? また、タグ付きの文ファイルを PlaintextCorpusReader への入力として使用する必要がありますか?