私の質問は、ツェッペリンでの pyspark コードの実行時間についてです。
いくつかのメモがあり、その中にいくつかの SQL を使用しています。私のメモの 1 つで、.topandas()関数を使用してデータフレームをパンダに変換します。私のデータのサイズは約 600 メガバイトです。
私の問題は、時間がかかることです。
たとえば、次のようにサンプリングを使用する場合:
df.sample(False, 0.7).toPandas()
それは正しく、許容できる時間内に機能します。
もう 1 つの奇妙な点は、このメモを数回実行すると、高速に動作することもあれば、低速に動作することもあります。たとえば、pyspark インタープリターを再起動した後の最初の実行では、より高速に動作します。
ツェッペリンを安定した状態で使用するにはどうすればよいですか? そして、許容時間内にスパークコードを実行するのに効果的なパラメーターはどれですか?