java - OpenNLP を使用した大規模なデータセットのトレーニング

Question

ファイルを含むデータセットが.trainあり、その非常に大きなファイルは100MBファイルです。NERで組織名を抽出したい。OpenNLP を使用してトレーニングを行いました。

サンプルコード:

TokenNameFinderModel model=NameFinderME.train("en","organization",
              sampleStream,Collections.<String, Object>emptyMap());

しかし、エラーが発生します: ArrayIndexOutofBoundException。

NER に openNLP を使用して大規模なデータセットをトレーニングする方法はありますか? サンプルコードを投稿できますか?

Google で検索したところ、Class GIS と DataIndexer インターフェイスを使用して大規模なデータセットをトレーニングできることがわかりましたが、その方法を知っていますか? サンプルコードを投稿できますか?

score 2 · Accepted Answer

問題なく、さらに大きなデータでモデルを作成できました。.train ファイルのマークアップに問題がある可能性があります。また、完全な例外を投稿していただければ助かりますか?

大規模なモデルをトレーニングする場合は、単純にカットオフを調整して Java メモリを増やします。

1 に答える 1