非構造化データの解析に OpenNLP Token Name finder を使用しています。4MM レコードのコーパス (トレーニング セット) を作成しましたが、Eclipse で OpenNLP API を使用してこのコーパスからモデルを作成しているため、プロセスには約 3 時間かかります。非常に時間がかかります。モデルは、反復 100 およびカットオフ 5 であるデフォルト パラメーターに基づいて構築されています。
私の質問は、このプロセスをスピードアップするにはどうすればよいか、モデルを構築するプロセスにかかる時間を短縮するにはどうすればよいかということです。
コーパスのサイズがこの理由である可能性がありますが、誰かがこの種の問題に遭遇したかどうか、もしそうなら、これを解決する方法を知りたかっただけです.
手がかりを教えてください。
前もって感謝します!