問題タブ [dependency-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Maltparser モデルのトレーニングに関する問題
Bangla の Maltparser モデルをトレーニングしようとしています。Conllu Format で小さなコーパスに注釈を付けました。しかし、それは私にヌルポインタエラーを与えます。そこで、UDのウェブサイトから集めたツリーバンクで試してみました。そして、それらのデータセットで動作します。私の質問は
XPOSTAG なしで Maltparser モデルをトレーニングできますか? UPOSTAG フィールドに注釈を付けましたが、XPOSTAG フィールドは UPOSTAG の単なるコピーです。XPOSTAG に注釈を付ける必要がありますか? これが、私のツリーバンクと UD ツリーバンクの唯一の違いです。
評価目的なので、UPOSTAG を XPOSTAG に自動変換できますか?
参照: http://universaldependencies.org/format.html
理解を深めるために、私の銀行とUD銀行の両方の例を挙げています
私の例の銀行(間違いやいくつかの空のフィールドがあります)(言語はバングラ語です)
UDバンク
python-3.x - NLTK :UnicodeDecodeError: を使用したスタンフォード依存パーサー:
次のコード行を実行しようとしています。
そして行で:
次の問題が発生します。
トレースバック (最後の最後の呼び出し): ファイル "C:/Users/Norbert/PycharmProjects/untitled/StanfordDependencyParser.py"、21 行目、print([parse.tree() for parse in dep_parser.raw_parse(sentence)]) ファイル「C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\parse\stanford.py」、134 行目、raw_parse return next(self.raw_parse_sents([sentence], verbose) )) ファイル "C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\parse\stanford.py"、152 行目、raw_parse_sents で self._parse_trees_output(self._execute( cmd, '\n'.join(sentences), verbose)) ファイル "C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\parse\stanford.py", 行218, in _execute stdout=PIPE, stderr=PIPE) ファイル "C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\internals.py"、135 行目、Java print(_decode_stdoutdata(stderr)) ファイル"C:\Users\Norbert\AppData \Local\Programs\Python\Python36\lib\site-packages\nltk\internals.py"、737 行目、_decode_stdoutdata で stdoutdata.decode(encoding) を返します3097: 無効な開始バイトt デコード バイト 0xac の位置 3097: 無効な開始バイトt デコード バイト 0xac の位置 3097: 無効な開始バイト
何が間違っている可能性がありますか?私はutf-8以外のテキストを扱っていません。