0
  1. Apache Spark で大きなファイルを処理する場合、たとえば、.executorsc.textFile("somefile.xml")間で並列処理するためにファイルを分割しますか?それとも、単一のexecutor で単一のチャンクとして処理しますか?

  2. データフレームを使用する場合、Databricksimplicit XMLContextからこのような大規模なデータセット処理用に事前に構築された最適化はありますか?

4

1 に答える 1

1
  1. ファイルに依存します。ファイル形式が分割可能で、ファイルが設定された分割サイズよりも大きい場合、複数のエグゼキューターで処理されます。
  2. XML ソースは完全な XML を解析しません。で構成されている行タグを識別するだけrowTagです。
于 2016-09-03T13:47:30.140 に答える