apache-spark - Spark での大きな bz2 ファイルの効率的な取り込み

翻译自：https://stackoverflow.com/questions/38020392 2016-06-24T19:00:54.940

275 次

Spark で大きな (50 GB などの) bz2 ファイルを効率的に取り込む方法はありますか? 私は Spark 1.6.1、それぞれ 30 GB の RAM を持つ 8 つのエグゼキューターを使用しています。当初、各エグゼキュータには 4 つのコアがありました。ただし、bz2 ファイルを textFile() で開くと、ArrayOutOfBoundsException がスローされます。ここ（およびウェブ上の他のスレッド）で報告されているようにhttp://apache-spark-user-list.1001560.n3.nabble.com/java-lang-ArrayIndexOutOfBoundsException-using-sc-textFile-on-BZ2-compressed-files -td22905.html、Hadoop が使用する bz2 デコンプレッサはスレッドセーフではないため、Spark のようなマルチスレッド環境で問題が発生します。これを回避するために、上記の Web ページで提案されているように、executor ごとのコア数を 1 に設定しましたが、これにより全体的な計算が遅くなります。

Hadoop 2.4.0.2.1.1.0-390 を使用しています。これについて何か考えはありますか？

ありがとう、

マルコ

apache-spark - Spark での大きな bz2 ファイルの効率的な取り込み

0 に答える 0

Related

Reference