1

機械学習を使用して文にラベルを付けようとしています (各文には単一のラベルが付いています。文は互いに独立していると想定しています)。この場合、線形 CRF モデルで問題ないと思いましたが、いくつか質問があります。

私はCRF++を使用してみました (私が見た他の実装には類似した形式があるようです)。文を入力として使用しますが、出力ラベルは各トークンに割り当てられます。文全体に単一のラベルを使用する方法は? (私が考えたハックは、テスト データのドットのみに重要なラベルを割り当て、それを文全体の出力ラベルとして扱うことです。)

異なる長さの文はどのように使用できますか? トレーニング構成では、現在のトークンを分析するときにどのトークンを考慮するかを指定する必要があります。しかし、文には多数または少数のトークンが含まれる可能性があり、情報全体を利用するために、文のすべてのトークンを (多かれ少なかれ) 使用したいと考えています。

この質問から、私がやろうとしていることは可能だと思われます (シーケンス全体の単一ラベル) が、そのためのトレーニング データをフォーマットする方法がわかりません。

4

2 に答える 2

0

仕事に間違ったツールを使用していると思います。文全体を分類するには、Facebook の fasttext などを使用してみてください。

https://github.com/facebookresearch/fastText

于 2017-11-27T00:31:28.873 に答える