apache-spark - スパークは単一のワーカーで大きなファイルを処理しますか

翻译自：https://stackoverflow.com/questions/39305310 2016-09-03T09:21:53.890

213 次

0

Apache Spark で大きなファイルを処理する場合、たとえば、.executorsc.textFile("somefile.xml")間で並列処理するためにファイルを分割しますか?それとも、単一のexecutor で単一のチャンクとして処理しますか?
データフレームを使用する場合、Databricksimplicit XMLContextからこのような大規模なデータセット処理用に事前に構築された最適化はありますか?

1 に答える 1

1

ファイルに依存します。ファイル形式が分割可能で、ファイルが設定された分割サイズよりも大きい場合、複数のエグゼキューターで処理されます。
XML ソースは完全な XML を解析しません。で構成されている行タグを識別するだけrowTagです。

于 2016-09-03T13:47:30.140 に答える