apache-flink - Apache Flink のストレージ

Question

これらの何百万ものイベント/データを処理した後、何百万ものイベントを保存する価値があると言う情報を保存するのに最適な場所はどこですか? このコミットによってクローズされたプルリクエストで、Parquet 形式について言及しているのを見ましたが、デフォルトは HDFS ですか? 私の懸念は、そのデータを取得するのが簡単な (速い!) 場合、保存した後 (どこに?) ですか?

score 9 · Accepted Answer

Apache Flink は、特定のストレージエンジンやフォーマットと結合されていません。Flink によって計算された結果を保存する最適な場所は、ユースケースによって異なります。

バッチまたはストリーミングジョブを実行していますか?
結果をどうしたいですか？
データへのバッチ (フルスキャン)、ポイント、または継続的なストリーミングアクセスが必要ですか?
データにはどのような形式がありますか? フラット構造 (リレーショナル)、ネスト、ブロブ、...

これらの質問に対する回答に応じて、次のようなさまざまなストレージバックエンドから選択できます。 - データへのポイントアクセス用の Apache HBase や Apache Cassandra などのキー値ストア - MongoDB、MySQL などのデータベース ...

Flink はこれらのシステムのほとんどに OutputFormats を提供します (一部は Hadoop OutputFormats のラッパーを介して)。「最適な」システムは、ユースケースによって異なります。

apache-flink - Apache Flink のストレージ

1 に答える 1

Related

Reference