machine-learning - CRF (Conditional Random Fields) を使用して文全体にラベルを付けることはできますか?

Question

機械学習を使用して文にラベルを付けようとしています (各文には単一のラベルが付いています。文は互いに独立していると想定しています)。この場合、線形 CRF モデルで問題ないと思いましたが、いくつか質問があります。

私はCRF++を使用してみました (私が見た他の実装には類似した形式があるようです)。文を入力として使用しますが、出力ラベルは各トークンに割り当てられます。文全体に単一のラベルを使用する方法は? (私が考えたハックは、テストデータのドットのみに重要なラベルを割り当て、それを文全体の出力ラベルとして扱うことです。)

異なる長さの文はどのように使用できますか? トレーニング構成では、現在のトークンを分析するときにどのトークンを考慮するかを指定する必要があります。しかし、文には多数または少数のトークンが含まれる可能性があり、情報全体を利用するために、文のすべてのトークンを (多かれ少なかれ) 使用したいと考えています。

この質問から、私がやろうとしていることは可能だと思われます (シーケンス全体の単一ラベル) が、そのためのトレーニングデータをフォーマットする方法がわかりません。

score 0 · Accepted Answer

仕事に間違ったツールを使用していると思います。文全体を分類するには、Facebook の fasttext などを使用してみてください。

https://github.com/facebookresearch/fastText

machine-learning - CRF (Conditional Random Fields) を使用して文全体にラベルを付けることはできますか?

2 に答える 2

Related

Reference