私は英語のテキストが過去、現在、未来の時制で動詞句を数える方法を探しています。今のところ、私はNLTKを使用しており、POS (品詞) タグ付けを行ってから、「VBD」と数えて過去の時制を取得しています。ただし、これは十分に正確ではないため、さらに進んでチャンキングを使用し、特定の時制パターンについて VP チャンクを分析する必要があると思います。それを行うものは存在しますか?役立つかもしれないさらなる読書はありますか?NLTKの本は主に NP チャンクに焦点を当てており、VP チャンクに関する情報はほとんど見つかりません。
9212 次
2 に答える
10
正確な答えは、使用するチャンカーによって異なりますが、リスト内包表記は長い道のりです。これにより、存在しないチャンカーを使用して動詞句の数が取得されます。
len([phrase for phrase in nltk.Chunker(sentence) if phrase[1] == 'VP'])
時制の数を検出するために、よりきめの細かいアプローチを取ることができます。
于 2010-08-09T05:26:21.810 に答える
1
これは、 BerkeleyParserまたはStanfordParserのいずれかを使用して実行できます。しかし、どちらにも利用できるPythonインターフェースがあるかどうかはわかりません。
于 2010-08-09T03:01:30.227 に答える