現在、layoutlm モデルのトレーニングに huggingface パッケージを使用しています。しかし、トークン分類タスクでオーバーフィッティングが発生しています。私のデータセットには 400 個のドキュメントしか含まれていません。非常に小さなデータセットであることはわかっていますが、これ以上のデータを収集する機会は他にありません。
私の結果は下の表にあります。私の意見ではどちらが高いかを試しweight_decay=0.1
ました。また、f1 スコアと損失に基づいて早期停止を試みましたが、うまくいきませんでした。
どの正則化手法を追加で試す必要がありますか? バートのようなモデルを使用して小さなデータセットに過剰適合する解決策はありますか?