次のコード行を実行しようとしています。
import os
os.environ['JAVAHOME'] = 'path/to/java.exe'
os.environ['STANFORD_PARSER'] = 'path/to/stanford-parser.jar'
os.environ['STANFORD_MODELS'] = 'path/to/stanford-parser-3.8.0-models.jar'
from nltk.parse.stanford import StanfordDependencyParser
dep_parser = StanfordDependencyParser(model_path="path/to/englishPCFG.ser.gz")
sentence = "sample sentence ..."
# Dependency Parsing:
print("Dependency Parsing:")
print([parse.tree() for parse in dep_parser.raw_parse(sentence)])
そして行で:
print([parse.tree() for parse in dep_parser.raw_parse(sentence)])
次の問題が発生します。
トレースバック (最後の最後の呼び出し): ファイル "C:/Users/Norbert/PycharmProjects/untitled/StanfordDependencyParser.py"、21 行目、print([parse.tree() for parse in dep_parser.raw_parse(sentence)]) ファイル「C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\parse\stanford.py」、134 行目、raw_parse return next(self.raw_parse_sents([sentence], verbose) )) ファイル "C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\parse\stanford.py"、152 行目、raw_parse_sents で self._parse_trees_output(self._execute( cmd, '\n'.join(sentences), verbose)) ファイル "C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\parse\stanford.py", 行218, in _execute stdout=PIPE, stderr=PIPE) ファイル "C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\internals.py"、135 行目、Java print(_decode_stdoutdata(stderr)) ファイル"C:\Users\Norbert\AppData \Local\Programs\Python\Python36\lib\site-packages\nltk\internals.py"、737 行目、_decode_stdoutdata で stdoutdata.decode(encoding) を返します3097: 無効な開始バイトt デコード バイト 0xac の位置 3097: 無効な開始バイトt デコード バイト 0xac の位置 3097: 無効な開始バイト
何が間違っている可能性がありますか?私はutf-8以外のテキストを扱っていません。