0

多くのカテゴリ (日付、年、時間、名前、句読点、メールなど) に当てはまる単語の種類を見つけようとしています。私はこれを検出するために独自のコードを作成していました (そして動作しました) が、ANTLR や JavaCC などのライブラリを見つけました。

私がやりたいのは、これらのライブラリのタスクですか? はいの場合、何を使用すればよいですか。そうでない場合、これに使用できるものはありますか?

推奨事項は何ですか?JavaCC、ANTRL、他にもありますか? JavaCC がいくつかのクラスを生成しているように見えますが、トークン化のように望ましくないものがあります。

4

1 に答える 1

2

必要なパーサーがどれほど強力かによって異なります。非常に強力なもの (JavaCC や ANTLR など) が必要な場合は、それらを使用してください。独自のものを作ろうとしてあまり時間をかけないでください。

単純なものが必要な場合は、Java で正規表現をほとんど使用しない単純な辞書検索パーサーを作成するか、StringTokenizer を作成することもできます(例が非常に単純な場合)。

于 2011-10-27T22:49:39.790 に答える