問題タブ [dependency-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
277 参照

java - Maltparser モデルのトレーニングに関する問題

Bangla の Maltparser モデルをトレーニングしようとしています。Conllu Format で小さなコーパスに注釈を付けました。しかし、それは私にヌルポインタエラーを与えます。そこで、UDのウェブサイトから集めたツリーバンクで試してみました。そして、それらのデータセットで動作します。私の質問は

  1. XPOSTAG なしで Maltparser モデルをトレーニングできますか? UPOSTAG フィールドに注釈を付けましたが、XPOSTAG フィールドは UPOSTAG の単なるコピーです。XPOSTAG に注釈を付ける必要がありますか? これが、私のツリーバンクと UD ​​ツリーバンクの唯一の違いです。

  2. 評価目的なので、UPOSTAG を XPOSTAG に自動変換できますか?

参照: http://universaldependencies.org/format.html

理解を深めるために、私の銀行とUD銀行の両方の例を挙げています

私の例の銀行(間違いやいくつかの空のフィールドがあります)(言語はバングラ語です)

UDバンク

0 投票する
1 に答える
546 参照

python-3.x - NLTK :UnicodeDecodeError: を使用したスタンフォード依存パーサー:

次のコード行を実行しようとしています。

そして行で:

次の問題が発生します。

トレースバック (最後の最後の呼び出し): ファイル "C:/Users/Norbert/PycharmProjects/untitled/StanfordDependencyParser.py"、21 行目、print([parse.tree() for parse in dep_parser.raw_parse(sentence)]) ファイル「C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\parse\stanford.py」、134 行目、raw_parse return next(self.raw_parse_sents([sentence], verbose) )) ファイル "C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\parse\stanford.py"、152 行目、raw_parse_sents で self._parse_trees_output(self._execute( cmd, '\n'.join(sentences), verbose)) ファイル "C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\parse\stanford.py", 行218, in _execute stdout=PIPE, stderr=PIPE) ファイル "C:\Users\Norbert\AppData\Local\Programs\Python\Python36\lib\site-packages\nltk\internals.py"、135 行目、Java print(_decode_stdoutdata(stderr)) ファイル"C:\Users\Norbert\AppData \Local\Programs\Python\Python36\lib\site-packages\nltk\internals.py"、737 行目、_decode_stdoutdata で stdoutdata.decode(encoding) を返します3097: 無効な開始バイトt デコード バイト 0xac の位置 3097: 無効な開始バイトt デコード バイト 0xac の位置 3097: 無効な開始バイト

何が間違っている可能性がありますか?私はutf-8以外のテキストを扱っていません。