5

こんにちは,MultipleTextOutputFormat を使用して 1 つの Spark ジョブで複数の出力ディレクトリにテキスト データを書き込むことについてのトピックがあります。

キー Spark による複数の出力への書き込み - 1 つの Spark ジョブ

Avroデータを複数のディレクトリに書き込む同様の方法があるかどうかを尋ねます

私が欲しいのは、avroファイルのデータを別のディレクトリに書き込むことです(タイムスタンプフィールドに基づいて、タイムスタンプの同じ日が同じディレクトリに移動します)

4

2 に答える 2

2

AvroMultipleOutputsクラスは、複数の出力への Avro 出力データの書き込みを簡素化します。

  • ケース 1: ジョブのデフォルト出力以外の追加出力への書き込み。追加の各出力または名前付き出力は、独自の Schema および OutputFormat で構成できます。

  • ケース 2: ユーザーが提供する別のファイルにデータを書き込む場合

AvroMultipleOutputsはカウンターをサポートしていますが、デフォルトでは無効になっています。counters グループはAvroMultipleOutputsクラス名です。カウンターの名前は、出力名と同じです。これらは、各出力名に書き込まれたレコードの数をカウントします。

こちらもご覧ください

于 2016-11-25T06:38:01.850 に答える