ドイツ語の単語の形態素解析を実行できるライブラリを探しています。つまり、任意の単語を語根形に変換し、分析された単語に関するメタ情報を提供します。
例えば:
gegessen -> essen
wurde [...] gefasst -> fassen
Häuser -> Haus
Hunde -> Hund
私のウィッシュリスト:
- 名詞と動詞の両方で機能する必要があります。
- ドイツ語の複雑さを考えると、これが非常に難しい作業であることは承知しています。そのため、近似値のみを提供するか、80% の正確さしかないライブラリも探しています。
- 私は辞書で動作しないライブラリを好みますが、状況によっては妥協することもできます。
- また、C/C++/Delphi の Windows ライブラリを好むと思います。統合が容易になるからですが、.NET、Java なども同様です。
- それは無料のライブラリでなければなりません。(L)GPL、MPL、...
編集:不規則な単語のため、辞書なしで形態素解析を実行する方法がないことは承知しています。私が言うとき、私は辞書のないライブラリを好みます。つまり、すべての単語をマッピングする本格的な辞書を意味します。
arbeite -> arbeiten
arbeitest -> arbeiten
arbeitet -> arbeiten
arbeitete -> arbeiten
arbeitetest -> arbeiten
arbeiteten -> arbeiten
arbeitetet -> arbeiten
gearbeitet -> arbeiten
arbeite -> arbeiten
...
これらの辞書には、巨大なサイズや未知の単語を処理できないなど、いくつかの欠点があります。
もちろん、すべての例外は辞書でのみ処理できます。
esse -> essen
isst -> essen
eßt -> essen
aß -> essen
aßt -> essen
aßen -> essen
...
(私の心は今、ぐるぐる回っています:))