テキストから時間ベースの情報を抽出しようとしていますが、ラベル付きデータが存在しないことがわかっています。目標は、文章を取り、タスクの期日などに関する情報を抽出することです。それは多くの形である可能性があります - そのうちのいくつかはあいまいです (1 から 12 までの数は時間の一般的な表現ですが、もちろん常にではありません)。そのようなデータを検出するように分類器をトレーニングすることが最善の方法のようです。
ただし、NLTK は何千もの文を利用できるようにしますが、この特定の目的のためのラベル付きデータはありません。後で分類器のトレーニング/テストデータとして使用できるように、一部のデータを手動で分類するために使用できる賢明な方法があるかどうか疑問に思っています。理想的には、グラフィカルで関連する用語をクリックできるようにすることですが、それはばかげた要求だと思います。あるいは、おそらく何千もの文を手動で分類したくないと考えて、使用できるより良い方法はありますか? ここで私は正しい方向に進んでいますか、それともラベル付きデータが利用できないと分類器システムは実行できませんか?
ありがとう、カルム