5

これらの何百万ものイベント/データを処理した後、何百万ものイベントを保存する価値があると言う情報を保存するのに最適な場所はどこですか? このコミットによってクローズされたプル リクエストで、Parquet 形式について言及しているのを見ましたが、デフォルトは HDFS ですか? 私の懸念は、そのデータを取得するのが簡単な (速い!) 場合、保存した後 (どこに?) ですか?

4

1 に答える 1

9

Apache Flink は、特定のストレージ エンジンやフォーマットと結合されていません。Flink によって計算された結果を保存する最適な場所は、ユース ケースによって異なります。

  • バッチまたはストリーミング ジョブを実行していますか?
  • 結果をどうしたいですか?
  • データへのバッチ (フル スキャン)、ポイント、または継続的なストリーミング アクセスが必要ですか?
  • データにはどのような形式がありますか? フラット構造 (リレーショナル)、ネスト、ブロブ、...

これらの質問に対する回答に応じて、次のようなさまざまなストレージ バックエンドから選択できます。 - データへのポイント アクセス用の Apache HBase や Apache Cassandra などのキー値ストア - MongoDB、MySQL などのデータベース ...

Flink はこれらのシステムのほとんどに OutputFormats を提供します (一部は Hadoop OutputFormats のラッパーを介して)。「最適な」システムは、ユースケースによって異なります。

于 2015-08-11T22:15:30.657 に答える