Apache Spark で大きなファイルを処理する場合、たとえば、.executor
sc.textFile("somefile.xml")
間で並列処理するためにファイルを分割しますか?それとも、単一のexecutor で単一のチャンクとして処理しますか?データフレームを使用する場合、Databricks
implicit XMLContext
からこのような大規模なデータセット処理用に事前に構築された最適化はありますか?
質問する
213 次