text-parsing - Stanford-Parser を使用してテキストからアラビア語の固有名詞を抽出する

Question

Stanford Parser を使用して、テキストからアラビア語の固有名詞を抽出しようとしています。

たとえば、入力文がある場合:

تكريم سعد الدين الشاذلى

アラビア語のスタンフォードパーサーを使用すると、ツリーダイアグラムは次のようになります。

(ROOT (NP (NN تكريم) (NP (NNP سعد) (DTNNP الدين) (NNP الشاذلى))))

適切な名前を抽出したい：

سعد الدين الشاذلى

サブツリーを持つもの：

(NP (NNP سعد) (DTNNP الدين) (NNP الشاذلى))

私はこれを試しました：同様の質問

しかし、この行には何か問題があります:

List<TaggedWord> taggedWords = (Tree) lp.apply(str);

taggedYield() タグ付けされた単語のリストにツリータイプを入れる際のエラー提案された関数をどこで使用できるかがわかりませんでした

何かアイデアはありますか？

score 2 · Accepted Answer

これは、ライブラリに関してはかなり基本的な Java ですが、必要なものは次のとおりです。

Tree tree = lp.apply(str);
List<TaggedWord> taggedWords = tree.taggedYield();
for (TaggedWord tw : taggedWords) {
  if (tw.tag().contains("NNP")) {
    System.err.println(tw.word());
  }
}

text-parsing - Stanford-Parser を使用してテキストからアラビア語の固有名詞を抽出する

1 に答える 1

Related

Reference