構文解析または POS タグ (POS = 動詞、名詞などの品詞) を調べます。
patternとNLTKはそのためのパッケージを提供します。
パターンの例:
>>> from pattern.en import parse
>>> print parse('I eat pizza with a fork.')
I/PRP/B-NP/O eat/VBD/B-VP pizza/NN/B-NP/O with/IN/B-PP/B-PNP a/DT/B-NP/I-PNP
fork/NN/I-NP/I-PNP ././O/O
NLTK の例:
>>> text = nltk.word_tokenize("And now for something completely different")
>>> nltk.pos_tag(text)
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'),
('completely', 'RB'), ('different', 'JJ')]
名詞または名詞(通常はNで始まる POS タグを持っています) に関する情報を入手したら、それらを閉鎖削除することができます。POS タグ付けは完全ではないことに注意してください。パフォーマンスは、作業しているテキストがどの程度完成しているかによって異なります。(また、英語で作業していると仮定していますが、多くの言語の POS タガーがあります。)