1

名前実体認識に OpenNLP モデルを使用しています。

単語を識別したい文章を渡しています。Open NLP には String [] 変数が必要なため、String をスペースで区切られた単語に分割します。

日付を認識する問題に直面しています。たとえば、文字列に 2012 年 1 月 7 日という日付が含まれている場合、文字列を単語に分割すると、「7」、「Jan」、「2012」が 3 つの異なる単語として分離されます。それらは日付として認識されますが、3 つの異なるトークンは、さらに処理するには意味がありません。「2012 年 1 月 2 日」を 1 つの文字列として解釈できるように、文字列を分割するにはどうすればよいでしょうか。2012 年 1 月 7 日は 1 つの形式です。日付は、入力した時間形式も認識します: 12:18pm など

NER 時刻モデルは、午後 12 時 18 分または 09:52:52 の時刻を認識しません。どのような時刻形式を受け入れますか?

4

1 に答える 1

2

Apache OpenNLP の日付と時刻のモデルは統計的であり、コーパスからトレーニングされています。形式だけでなく、コンテキストから日付と時刻を認識します。

特定のニーズがある場合は、独自のコーパスを作成し、独自の OpenNLP Name Finder モデルをトレーニングできます。

OpenNLP Name Finder は、トレーニング中のカスタマイズもサポートしています。コーパスを作成し、正規表現ベースの機能を追加すると、結果を改善できる可能性があります。

于 2012-05-03T01:39:53.037 に答える