Python で nltk モジュールを使用して、2 つから 5 つの名詞が連続して発生するインスタンスをまとめようとしています。
これは私が使用しているコードです:
parse_pattern = "Keyword: {< N>{2,5}}"
keyword_parser = nltk.RegexpParser(parse_pattern)
result = keyword_parser.parse(sentence)
このビットがトリックを行うべきであることは理にかなっています:Keyword: {< N>{2,5}}
上記のビットを完全に類推して使用する Python を使用した自然言語処理という本で例を見つけました。NOUNS: {< N.*>{4,}}
著者は、そのコードのビットは 4 つ以上の名詞をチャンクする必要があると説明しています。
ただし、上記のコードを実行するとエラーが発生します。
ValueError: Illegal chunk pattern: {< N>{2,5}}
注:私はまた、{< N.*>{2,5}}
(前述の本の著者が行ったという理由だけでドットスターを使用して)上記を使用してみましたが、運がありませんでした。
タグの 2 つ以上の繰り返しをチャンクする方法についての助けをいただければ幸いです。