0

PythonのNLTKのTaggedCorpusReaderを使用しています。utf8でエンコードされたファイルを読みたい。そうするために、デフォルトのエンコーディング「none」(ドキュメントに関して)を「utf8」に変更したかったのです。したがって、エンコーディング引数に到達するデフォルトの引数を渡す必要があります。

__init__(self, root, fileids, sep='/', 
        word_tokenizer=WhitespaceTokenizer(pattern='\\s+',
                   gaps=True, discard_empty=T..., 
        sent_tokenizer=RegexpTokenizer(pattern='\n', 
        gaps=True, discard_empty=True, f..., 
        para_block_reader=<function read_blankline_block at 0x132be70>, 
        encoding=None, tag_mapping_function=None)

これはgooglecodeからの定義です。

私が今やったことは、次のようにコンストラクターを呼び出しました。

TaggedCorpusReader('.' ,  filelist, '/', 
        WhitespaceTokenizer(u'\s+', True, True, 56), 
        RegexpTokenizer('n', True, True, 56), 
        <function read_blankline_block at 0x5b731b8>, 
        'utf8', None)

次に、このエラーが発生します

Traceback (most recent call last):
  File "nlpenhg.py", line 2, in <module>
    from BonnerCorpus import *
  File "path/code/BonnerCorpus.py", line 27
    self.corpus = TaggedCorpusReader('.' ,  filelist, '/', WhitespaceTokenizer(u'\s+', True, True, 56), RegexpTokenizer('n', True, True, 56), <function read_blankline_block at 0x5b731b8>, 'utf8', None)

<function ...エラーはこのステートメントから来ていると思います。それがエラーの理由ですか?それはどんな表現ですか?グーグルするのは難しい<です。

4

1 に答える 1