機械学習を使用して文にラベルを付けようとしています (各文には単一のラベルが付いています。文は互いに独立していると想定しています)。この場合、線形 CRF モデルで問題ないと思いましたが、いくつか質問があります。
私はCRF++を使用してみました (私が見た他の実装には類似した形式があるようです)。文を入力として使用しますが、出力ラベルは各トークンに割り当てられます。文全体に単一のラベルを使用する方法は? (私が考えたハックは、テスト データのドットのみに重要なラベルを割り当て、それを文全体の出力ラベルとして扱うことです。)
異なる長さの文はどのように使用できますか? トレーニング構成では、現在のトークンを分析するときにどのトークンを考慮するかを指定する必要があります。しかし、文には多数または少数のトークンが含まれる可能性があり、情報全体を利用するために、文のすべてのトークンを (多かれ少なかれ) 使用したいと考えています。
この質問から、私がやろうとしていることは可能だと思われます (シーケンス全体の単一ラベル) が、そのためのトレーニング データをフォーマットする方法がわかりません。