これが私の要件です。次のことを実現できるように、段落をトークン化してタグ付けしたいと考えています。
- 段落内の日付と時刻を識別し、日付と時刻としてタグ付けする必要があります
- 段落内の既知のフレーズを特定し、それらを CUSTOM としてタグ付けする必要があります
- また、残りのコンテンツはトークン化する必要があります。デフォルトの nltk の word_tokenize および pos_tag 関数でトークン化する必要がありますか?
たとえば、次の文
"They all like to go there on 5th November 2010, but I am not interested."
そのカスタム フレーズが「I am not interested」の場合は、次のようにタグ付けしてトークン化する必要があります。
[('They', 'PRP'), ('all', 'VBP'), ('like', 'IN'), ('to', 'TO'), ('go', 'VB'),
('there', 'RB'), ('on', 'IN'), ('5th November 2010', 'DATE'), (',', ','),
('but', 'CC'), ('I am not interested', 'CUSTOM'), ('.', '.')]
どんな提案も役に立ちます。