Brill Tagger の弱点と長所は何ですか? タガーの改善案をいくつか提案していただけますか?
2 に答える
Brill タガーの最大の弱点は、トレーニング フェーズに必要な時間です (ここで ACOPOST のタイムスタンプを参照するか、NLTKを使用して実装してみてください)。Brill タガーは、一連のタグ付けシステムで使用される最後のタグ付けと常に見なす必要があることを忘れないでください (単純なタグ付けの場合、私は通常、HMM タガーの出力で Brill タガーを使用してトレーニングします)。トレーニング フェーズをさらに長くすることに加えて、Brill タガーを単独で使用すると、通常は非常に大きく、通常は重複し、場合によっては「正しくない」一連のルールが生成されます (つまり、「真の」タグ付けコンテキストで多くの正しいタグが無効になるルール)。
Brill タガーの最大の強みは、そのモデルが理にかなっているという事実です。特に、一般的に行われているように、人間が判読できる形式でルールを保存する場合はそうです。統計タガーのモデルを手動で検査するのは面倒で、エラーが発生しやすく、あまり有用ではありませんが、一連の変換ルールは手動で理解して微調整できるだけでなく、NLP の経験がない人でも実行できます (実際、何年も前に語学プログラムの学部生がブラジルのポルトガル語コーパスで生成されたルールを評価したとき、私はそうしました)。実際、一連のルールを完全に自分で作成することもできます。
要するに、Brill タガーはカスケード タガーの堅牢なシステムの最後のステップとしては便利ですが、一般に、単独で使用するのは最善の方法ではありません (単一のタガーを使用する場合は、 HMM のもの)。私の提案は、別のタガーのタグ付き出力で Brill タガーをトレーニングして使用することです。できれば投票 1 などの組み合わせシステム (つまり、3 つまたは 4 つの異なるタガーをセットアップするときは、投票システムを使用して各トークンに最適なタグを選択します)そして、これらの結果を Brill タガーにフィードして、以前のシステムの最も一般的な間違いを修正することが期待されます)。
Brill のタガーを改善するためのいくつかの提案は、論文「独立性とコミットメント: ルールベースの POS タガーの迅速なトレーニングと実行の前提」および「高速レーンでの変換ベースの学習」で提示されました。さらに、ルールベースの POS および形態学的タグ付けツールキットRDRPOSTaggerは、変換ベースのルールが二分決定木の形式で格納される Brill のタガーの改善も提供します。そのため、RDRPOSTagger は非常に高速なトレーニングとタグ付けのパフォーマンスを取得し、Brill よりも精度が高くなります。ここで結果を参照してください。