文字列が名詞、動詞、形容詞などであるかどうかをプログラムに知らせたいのですが、トークン化する必要がありますが、どうすればよいですか?
単語の定義にデータベースが必要ですか?自由文脈文法を使用していますか?
ありがとうございました。
それよりもはるかに複雑です。
あなたの当面の質問に対する答えは両方です。単語を調べて品詞を確認し、文型を分析して品詞を判別します。
http://wordnet.princeton.edu/をチェックして、品詞の検索について確認してください。
NLPのオープンソースフレームワークとしてGATE/Annieをお勧めします。ApacheにはUIMAがありますが、私はそれを使用していません。プロジェクト間にはある程度の互換性があると思います。