1

ファイルを含むデータセットが.trainあり、その非常に大きなファイルは100MBファイルです。NERで組織名を抽出したい。OpenNLP を使用してトレーニングを行いました。

サンプルコード:

TokenNameFinderModel model=NameFinderME.train("en","organization",
              sampleStream,Collections.<String, Object>emptyMap()); 

しかし、エラーが発生します: ArrayIndexOutofBoundException

NER に openNLP を使用して大規模なデータセットをトレーニングする方法はありますか? サンプルコードを投稿できますか?

Google で検索したところ、Class GIS と DataIndexer インターフェイスを使用して大規模なデータ セットをトレーニングできることがわかりましたが、その方法を知っていますか? サンプルコードを投稿できますか?

4

1 に答える 1

2

問題なく、さらに大きなデータでモデルを作成できました。.train ファイルのマークアップに問題がある可能性があります。また、完全な例外を投稿していただければ助かりますか?

大規模なモデルをトレーニングする場合は、単純にカットオフを調整して Java メモリを増やします。

于 2012-12-05T20:58:18.130 に答える