nlp - 品詞パターンを見つけるために使用できるツール

Question

ドキュメントのコーパスで品詞パターンを見つけるためのツールを探しています。ドキュメントの POS タグ付けにスタンフォード NLP ツールを使用しています。これらのタグ付きドキュメントをクエリして、たとえば次のような特定の POS パターンを見つけたいと思います。

NPはJJ (例: 映画はいいです)

またはJJ NP (例: 素晴らしいフォアグラ)

シンプルで効率的な方法でこれを行うことができるツールはありますか、それとも自分で作成する必要がありますか?

score 2 · Accepted Answer

Stanford CoreNLP から、TokensRegex を使用してトークンのリスト内のパターンを照合することもできます: http://nlp.stanford.edu/software/tokensregex.shtml

たとえば、2 つのパターンは次のようになります。

[{tag:NN}] [{word:is}] [{tag:JJ}]

[{tag:JJ}] [{tag:NN}]

(ちなみに、NP は POS タグではありません。おそらく、実際には、[{tag:/N.*/}] と [{lemma:be}] がより広い範囲のケースをキャッチする必要があります)。

2 に答える 2