このリンクで提供されている OpenNLP パーサー コードを使用してドキュメントを解析したところ、次の出力が得られました。
(TOP (S (NP (NN Programcreek)) (VP (VBZ is) (NP (DT a) (ADJP (RB very) (JJ huge) (CC and) (JJ useful)) (NN website)))))
これから意味のある単語のみを抽出したいのですが、これらの意味のある単語に基づいてさらに分類したいので、すべてのストップワードを削除したいと考えています。解析された出力からストップワードを削除する方法を教えてください。
最後に、以下の出力を取得したい
(TOP (S (NP (NN Programcreek)) (JJ useful)) (NN website)))))
OpenNLP でそれが不可能な場合は、自然言語処理用の他の Java ライブラリを提案してください。私の主な目的は、ドキュメントを解析して意味のある単語のみを取得することだからです。