ドキュメントのコーパスで品詞パターンを見つけるためのツールを探しています。ドキュメントの POS タグ付けにスタンフォード NLP ツールを使用しています。これらのタグ付きドキュメントをクエリして、たとえば次のような特定の POS パターンを見つけたいと思います。
NPはJJ (例: 映画はいいです)
またはJJ NP (例: 素晴らしいフォアグラ)
シンプルで効率的な方法でこれを行うことができるツールはありますか、それとも自分で作成する必要がありますか?
ドキュメントのコーパスで品詞パターンを見つけるためのツールを探しています。ドキュメントの POS タグ付けにスタンフォード NLP ツールを使用しています。これらのタグ付きドキュメントをクエリして、たとえば次のような特定の POS パターンを見つけたいと思います。
NPはJJ (例: 映画はいいです)
またはJJ NP (例: 素晴らしいフォアグラ)
シンプルで効率的な方法でこれを行うことができるツールはありますか、それとも自分で作成する必要がありますか?
Stanford CoreNLP から、TokensRegex を使用してトークンのリスト内のパターンを照合することもできます: http://nlp.stanford.edu/software/tokensregex.shtml
たとえば、2 つのパターンは次のようになります。
[{tag:NN}] [{word:is}] [{tag:JJ}]
[{tag:JJ}] [{tag:NN}]
(ちなみに、NP は POS タグではありません。おそらく、実際には、[{tag:/N.*/}] と [{lemma:be}] がより広い範囲のケースをキャッチする必要があります)。