apache-flink - データストリーミングに Apache Flink を使用する

Question

私は以下の要件を持つアプリケーションの構築に取り組んでおり、flink を使い始めたばかりです。

私はリアルタイムストリーミングプラットフォームを探していましたが、Flink がリアルタイムとバッチの両方に最適であることがわかりました。

flink が私のユースケースに最適だと思いますか?それとも、Storm、Spark ストリーミング、またはその他のストリーミングプラットフォームを使用する必要がありますか?
flink で一連のステップを実行するには、Google データフローにデータパイプラインを記述する必要がありますか?それとも、リアルタイムストリーミングの一連のステップを実行する他の方法はありますか?
各計算に 20 ミリ秒かかるとしたら、どうすれば flink を使用してより適切に設計し、スループットを向上させることができるでしょうか。
Redis または Cassandra を使用して、計算ごとに flink 内でデータを取得できますか?
flink 内で JVM メモリ内キャッシュを使用できますか?
また、ある時間枠 (例: 5 秒) のキーに基づいてデータを集計することもできます。たとえば、100 件のメッセージが着信し、10 件のメッセージが同じキーを持つとします。同じキーを持つすべてのメッセージをグループ化して処理できますか。
flink を使用したベストプラクティスに関するチュートリアルはありますか?

皆様のご協力に感謝いたします。

score 2 · Accepted Answer

タスクの説明を考えると、Apache Flink はユースケースに適しているように見えます。

一般に、Flink は低レイテンシーと高スループットを提供し、これらを調整するパラメーターを備えています。Redis または Cassandra との間でデータを読み書きできます。ただし、状態を Flink の内部に保存することもできます。Flink は、Windows の洗練されたサポートも備えています。Flink Web サイトのブログを読んだり、ドキュメントで詳細を確認したり、このFlink トレーニングに従ってAPI を学習したりできます。

apache-flink - データ ストリーミングに Apache Flink を使用する