13

そこから名詞句を抽出したいテキストがあります。持っているテキストの型付きパーサーを簡単に取得できますが、テキスト内の名詞句をどのように抽出できるのでしょうか?

4

3 に答える 3

10

次のコードを使用して、Tree から名詞句を抽出できます。これは、構文解析済みの文が parse に格納されていることを前提としています(つまり、parse は LexicalizedParser クラスの apply メソッドの出力です)。

public static List<Tree> GetNounPhrases()
{

    List<Tree> phraseList=new ArrayList<Tree>();
    for (Tree subtree: parse)
    {

      if(subtree.label().value().equals("NP"))
      {

        phraseList.add(subtree);
        System.out.println(subtree);

      }
    }

      return phraseList;

}
于 2013-02-11T04:26:19.017 に答える
8

このリンクも試してみてください。stanford pos tagger と corenlp で利用可能な tagger が同じかどうかはわかりませんが、このリンクの方が便利であることがわかりました。

PoS タグ付けの後、次のようなパターンを検出する必要があります (形容詞 | 名詞)* (名詞の前置詞)? (形容詞 | 名詞)* 名詞

名詞句検出の詳細については、このリンクを試してください。

于 2012-07-02T10:32:00.650 に答える
0

POS のタグ付けには Stanford Core NLP を使用できます。http://nlp.stanford.edu/software/corenlp.shtml#Usageでサンプル コードを見つけることができます。これは、実験の出発点として適しています。tokenize、split、および pos をプロパティとして指定する必要があります。これにより、対応するタグを含むトークンのリストが出力されます。

タグ リスト全体はhttp://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.htmlで見ることができます。すべての名詞タグは NN で始まります。このチェックを実行すると、必要なトークンが得られます。

于 2012-06-21T12:55:53.230 に答える