machine-learning - SyntaxNet のトレーニングにはどのくらいのデータが必要ですか?

Question

データが多ければ多いほどよいことはわかっていますが、SyntaxNet のトレーニングに必要な妥当な量のデータはどれくらいでしょうか?

score 3 · Accepted Answer

いくつかの試行錯誤に基づいて、次の最小値に到達しました。

コーパスのトレーニング - 18,000 トークン (それ未満でステップ 2 - タガーによる前処理 - 失敗)

テストコーパス - 2,000 トークン (それ未満で、ステップ 2 - タガーによる前処理 - 失敗)

開発コーパス - 2,000 トークン

ただし、これで、NLP パイプラインのステップを実行することができただけであり、実際にはそこから使用できるものを取得できていないことに注意してください。

1 に答える 1