名前実体認識に OpenNLP モデルを使用しています。
単語を識別したい文章を渡しています。Open NLP には String [] 変数が必要なため、String をスペースで区切られた単語に分割します。
日付を認識する問題に直面しています。たとえば、文字列に 2012 年 1 月 7 日という日付が含まれている場合、文字列を単語に分割すると、「7」、「Jan」、「2012」が 3 つの異なる単語として分離されます。それらは日付として認識されますが、3 つの異なるトークンは、さらに処理するには意味がありません。「2012 年 1 月 2 日」を 1 つの文字列として解釈できるように、文字列を分割するにはどうすればよいでしょうか。2012 年 1 月 7 日は 1 つの形式です。日付は、入力した時間形式も認識します: 12:18pm など
NER 時刻モデルは、午後 12 時 18 分または 09:52:52 の時刻を認識しません。どのような時刻形式を受け入れますか?