Treetagger は、次のドイツ語の例のように、POS タグ付けとテキスト チャンキングを行うことができます。これは、動詞節と名義節を抽出することを意味します。
$ echo 'Das ist ein Test.' | cmd/tagger-chunker-german
reading parameters ...
tagging ...
finished.
<NC>
Das PDS die
</NC>
<VC>
ist VAFIN sein
</VC>
<NC>
ein ART eine
Test NN Test
</NC>
. $. .
Python で Treetaggerwrapper を使用してこれを行う方法を理解しようとしています (Treetagger を直接呼び出すよりも高速であるため) が、その方法がわかりません。ドキュメントでは、チャンクを前処理と呼んでいるので、これを使用してみました:
tags = tagger.tag_text(u"Dieser Satz ist ein Satz.",prepronly=True)
しかし、出力は情報が追加されていない単なる単語のリストです。Wrapper が Chunking と呼んでいるものは、実際の tagger が Chunking と呼んでいるものとは何か違うと思い始めていますが、何かが足りないのでしょうか? どんな助けでも大歓迎です。