これは情報抽出のアプリケーションであり、隠れマルコフ モデル (HMM) や条件付きランダム フィールド (CRF) などのシーケンス セグメンテーション アルゴリズムを使用してより具体的に解決できます。
ソフトウェアの実装については、UMass-Amherst のMALLET ツールキットから始めることをお勧めします。これは、情報抽出用の CRF を実装する一般的なライブラリです。
文中の各トークンは、単語の特徴 (品詞、大文字化、辞書のメンバーシップなど) の関数として、関心のあるフィールド (または上記のいずれでもない場合は「x」) でラベル付けされるものとして扱います。 。)... このようなもの:
token label features
-----------------------------------
Let x POS=NNP, capitalized
's x POS=POS
meet x POS=VBP
tomorrow DATE POS=NN, inDateDictionary
someplace x POS=NN
in x POS=IN
Downtown LOCATION POS=NN, capitalized
at x POS=IN
7pm TIME POS=CD, matchesTimeRegex
. x POS=.
ただし、最初に手動でラベル付けされたトレーニング データを提供する必要があります。