scala - 独自のディレクトリ内の個々の寄木細工ファイルに RDD パーティションを書き込む

Question

各 RDD パーティションを独自のディレクトリを持つ個別の寄木細工のファイルに書き込みたいステップに苦労しています。例は次のとおりです。

    <root>
        <entity=entity1>
            <year=2015>
                <week=45>
                    data_file.parquet

この形式の利点は、これを SparkSQL で列として直接使用でき、実際のファイルでこのデータを繰り返す必要がないことです。これは、個別のパーティショニングメタデータを別の場所に保存することなく、特定のパーティションに到達するための良い方法です。

前のステップとして、多数の gzip ファイルからすべてのデータをロードし、上記のキーに基づいてパーティション分割しました。

考えられる方法は、各パーティションを個別のRDDとして取得してから書き込むことですが、良い方法は見つかりませんでした。

どんな助けでも大歓迎です。ところで、私はこのスタックに不慣れです。

score 49 · Accepted Answer

受け入れられた答えが質問に適切に答えているとは思いません。

次のようなことを試してください：

df.write.partitionBy("year", "month", "day").parquet("/path/to/output")

そして、パーティション化されたディレクトリ構造が得られます。

score 2 · Accepted Answer

foreachPartition(f: Iterator[T] => Unit)保存したいRDDを呼び出すことで可能だと思います。

に提供した関数でforeachPartition：

2 に答える 2