8

現在、OpenNLP ツールを使用して、ドイツ語の文章に PoS タグを付けています。maxent モデルは、ダウンロード サイトにリストされています。

de POS Tagger トラコーパスでトレーニングされた Maxent モデル。de-pos-maxent.bin

これは非常にうまく機能し、次のような結果が得られました。

Diese、Community、bietet、Teilnehmern、der、Veranstaltungen、die、Möglichkeit ...
PDAT、FM、VVFIN、NN、ART、NN、ART、NN ...

タグ付けされた文を使用して、単一のタグの意味を知る必要がある場合に、さらに処理を行いたいと考えています。残念ながら、 OpenNLP-Wikiでタグ セットを検索することは、次のようにあまり役に立ちません。

TODO: 英語以外の言語用にもタグ セットを追加します

ドイツの maxent モデルで使用されているタグ セットがどこにあるか知っている人はいますか?

4

3 に答える 3

8

ドイツ語のタグを含む列挙型を作成しました (逆引きが可能です):

public enum POSGermanTag {

    ADJA("Attributives Adjektiv"),
    ADJD("Adverbiales oder prädikatives Adjektiv"),
    ADV("Adverb"),
    APPR("Präposition; Zirkumposition links"),
    APPRART("Präposition mit Artikel"),
    APPO("Postposition"),
    APZR("Zirkumposition rechts"),
    ART("Bestimmer oder unbestimmer Artikel"),
    CARD("Kardinalzahl"),
    FM("Fremdsprachichles Material"),
    ITJ("Interjektion"),
    KOUI("unterordnende Konjunktion mit zu und Infinitiv"),
    KOUS("unterordnende Konjunktion mit Satz"),
    KON("nebenordnende Konjunktion"),
    KOKOM("Vergleichskonjunktion"),
    NN("normales Nomen"),
    NE("Eigennamen"),
    PDS("substituierendes Demonstrativpronomen"),
    PDAT("attribuierendes Demonstrativpronomen"),
    PIS("substituierendes Indefinitpronomen"),
    PIAT("attribuierendes Indefinitpronomen ohne Determiner"),
    PIDAT("attribuierendes Indefinitpronomen mit Determiner"),
    PPER("irreflexives Personalpronomen"),
    PPOSS("substituierendes Possessivpronomen"),
    PPOSAT("attribuierendes Possessivpronomen"),
    PRELS("substituierendes Relativpronomen"),
    PRELAT("attribuierendes Relativpronomen"),
    PRF("reflexives Personalpronomen"),
    PWS("substituierendes Interrogativpronomen"),
    PWAT("attribuierendes Interrogativpronomen"),
    PWAV("adverbiales Interrogativ- oder Relativpronomen"),
    PAV("Pronominaladverb"),
    PTKZU("zu vor Infinitiv"),
    PTKNEG("Negationspartike"),
    PTKVZ("abgetrennter Verbzusatz"),
    PTKANT("Antwortpartikel"),
    PTKA("Partikel bei Adjektiv oder Adverb"),
    TRUNC("Kompositions-Erstglied"),
    VVFIN("finites Verb, voll"),
    VVIMP("Imperativ, voll"),
    VVINF("Infinitiv"),
    VVIZU("Infinitiv mit zu"),
    VVPP("Partizip Perfekt"),
    VAFIN("finites Verb, aux"),
    VAIMP("Imperativ, aux"),
    VAINF("Infinitiv, aux"),
    VAPP("Partizip Perfekt"),
    VMFIN("finites Verb, modal"),
    VMINF("Infinitiv, modal"),
    VMPP("Partizip Perfekt, modal"),
    XY("Nichtwort, Sonderzeichen"),
    UNDEFINED("Nicht definiert, zb. Satzzeichen");

    private final String desc;

    private static final Map<String, POSGermanTag> nameToValueMap = new HashMap<String, POSGermanTag>();

    static {
        for (POSGermanTag value : EnumSet.allOf(POSGermanTag.class)) {
            nameToValueMap.put(value.name(), value);
        }
    }

    public static POSGermanTag forName(String name) {
        return nameToValueMap.get(name);
    }

    private POSGermanTag(String desc) {
        this.desc = desc;
    }

    public String getDesc() {
        return this.desc;
    }
}
于 2012-08-03T11:36:04.153 に答える
6

STTS タグ セットが使用されている可能性が非常に高いようです。このタグ セットは、ドイツ語で最も一般的なタグ セットであると言われています。たとえば、この質問やこのウィキペディアのエントリで説明されています。

于 2010-12-31T16:18:49.257 に答える
3

ドイツ語用の OpenNLP POS タガーが Tiger コーパスで訓練されたことは、私の理解です。このコーパスは、わずかな変更を加えて、実際に STTS タグ セットを使用しています。以下が役に立ちました: Tiger Sample Corpus の簡単な紹介

于 2012-01-20T11:14:46.333 に答える