ドキュメントが「興味深い」期間に関連する約 3000 のテキスト ドキュメントがあります。たとえば、文書 1 に 300 行のテキストとコンテンツがあり、5.5 日間の関心期間があったとします。一方、40 行のテキストを含む別の文書では、6.7 日間の期間が「関心のある」期間になりました。
ここでのタスクは、テキストの内容に基づいて関心のある期間 (連続値) を予測することです。
この問題に取り組むための 2 つのアイデアがあります。
- http://radimrehurek.com/gensim/simserver.htmlのようなテクノロジーを使用して、同様のドキュメントのモデルを構築します。新しいドキュメントが到着すると、過去に最も類似した 10 個のドキュメントを見つけて、それらの期間の平均を計算し、その値を新しいドキュメントの対象期間の予測として使用することができます。
- ドキュメントを期間のカテゴリに分けます (例: 1 日、2 日、3 ~ 5 日、6 ~ 10 日など)。次に、分類子をトレーニングして、テキスト コンテンツに基づいて期間のカテゴリを予測します。
アイデア 1 の利点は、予測の標準偏差も計算できることですが、アイデア 2 では、予測の不確実性の同様の尺度を計算する方法があまり明確ではありません。また、分類子から最良の結果を得るためにどのカテゴリを選択すればよいか、私にはわかりません。
では、テキスト ドキュメントから時間のような連続値を最適に予測するためのシステムを構築するための経験則はありますか? 分類子を使用する必要がありますか、それとも同様のドキュメントの平均値を使用するアプローチを使用する必要がありますか? 私はその分野で実際の経験がないので、どのアプローチがおそらく最良の結果をもたらすと思われるかを知りたい. この問題を解決するために使用できる単純な既存のテクノロジ (Java または Python ベース) を知っている場合は、ボーナス ポイントが与えられます。