各 RDD パーティションを独自のディレクトリを持つ個別の寄木細工のファイルに書き込みたいステップに苦労しています。例は次のとおりです。
<root>
<entity=entity1>
<year=2015>
<week=45>
data_file.parquet
この形式の利点は、これを SparkSQL で列として直接使用でき、実際のファイルでこのデータを繰り返す必要がないことです。これは、個別のパーティショニング メタデータを別の場所に保存することなく、特定のパーティションに到達するための良い方法です。
前のステップとして、多数の gzip ファイルからすべてのデータをロードし、上記のキーに基づいてパーティション分割しました。
考えられる方法は、各パーティションを個別のRDDとして取得してから書き込むことですが、良い方法は見つかりませんでした。
どんな助けでも大歓迎です。ところで、私はこのスタックに不慣れです。