PythonのNLTKのTaggedCorpusReaderを使用しています。utf8でエンコードされたファイルを読みたい。そうするために、デフォルトのエンコーディング「none」(ドキュメントに関して)を「utf8」に変更したかったのです。したがって、エンコーディング引数に到達するデフォルトの引数を渡す必要があります。
__init__(self, root, fileids, sep='/',
word_tokenizer=WhitespaceTokenizer(pattern='\\s+',
gaps=True, discard_empty=T...,
sent_tokenizer=RegexpTokenizer(pattern='\n',
gaps=True, discard_empty=True, f...,
para_block_reader=<function read_blankline_block at 0x132be70>,
encoding=None, tag_mapping_function=None)
これはgooglecodeからの定義です。
私が今やったことは、次のようにコンストラクターを呼び出しました。
TaggedCorpusReader('.' , filelist, '/',
WhitespaceTokenizer(u'\s+', True, True, 56),
RegexpTokenizer('n', True, True, 56),
<function read_blankline_block at 0x5b731b8>,
'utf8', None)
次に、このエラーが発生します
Traceback (most recent call last):
File "nlpenhg.py", line 2, in <module>
from BonnerCorpus import *
File "path/code/BonnerCorpus.py", line 27
self.corpus = TaggedCorpusReader('.' , filelist, '/', WhitespaceTokenizer(u'\s+', True, True, 56), RegexpTokenizer('n', True, True, 56), <function read_blankline_block at 0x5b731b8>, 'utf8', None)
<function ...
エラーはこのステートメントから来ていると思います。それがエラーの理由ですか?それはどんな表現ですか?グーグルするのは難しい<
です。