MLlib の Naive Baye の分類実装を使用してドキュメント分類に使用する TFIDF ベクトルを作成しているときに、メモリ オーバーフローの問題が発生しました。
すべての用語の idfs を収集しているときに、メモリ オーバーフローと GC の問題が発生します。規模を把握するために、HBase から約 615,000 (約 4 GB のテキスト データ) の小さなサイズのドキュメントを読み取り、8 コアと 6 GB のエグゼキューター メモリで spark プログラムを実行しています。並列処理レベルとシャッフル メモリ部分を増やしてみましたが、役に立ちませんでした。
この OOM の問題を解決するにはどうすればよいですか?
ありがとう