問題タブ [flink-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-flink - データ ストリーミングに Apache Flink を使用する
私は以下の要件を持つアプリケーションの構築に取り組んでおり、flink を使い始めたばかりです。
- たとえば 50 個のパーティションを使用してデータを Kafka に取り込みます (受信レート - 100,000 メッセージ/秒)
- Kafka からデータを読み取り、各データを処理します (計算を実行し、古いデータと比較するなど) リアルタイム
- 出力を Cassandra に保存する
私はリアルタイム ストリーミング プラットフォームを探していましたが、Flink がリアルタイムとバッチの両方に最適であることがわかりました。
- flink が私のユースケースに最適だと思いますか?それとも、Storm、Spark ストリーミング、またはその他のストリーミング プラットフォームを使用する必要がありますか?
- flink で一連のステップを実行するには、Google データ フローにデータ パイプラインを記述する必要がありますか?それとも、リアルタイム ストリーミングの一連のステップを実行する他の方法はありますか?
- 各計算に 20 ミリ秒かかるとしたら、どうすれば flink を使用してより適切に設計し、スループットを向上させることができるでしょうか。
- Redis または Cassandra を使用して、計算ごとに flink 内でデータを取得できますか?
- flink 内で JVM メモリ内キャッシュを使用できますか?
- また、ある時間枠 (例: 5 秒) のキーに基づいてデータを集計することもできます。たとえば、100 件のメッセージが着信し、10 件のメッセージが同じキーを持つとします。同じキーを持つすべてのメッセージをグループ化して処理できますか。
- flink を使用したベスト プラクティスに関するチュートリアルはありますか?
皆様のご協力に感謝いたします。
hadoop - kerberos チケットの有効期限が切れた後、スタンドアロン クラスターでの Flink ジョブが失敗する
私の Flink ストリーミング ジョブは、安全な hdfs に書き込みます。kinit 後、kerberos チケットの有効期限が切れるまで、ジョブはスムーズに実行されます。現在1dになっている寿命を延ばすことはできません。このエラーをどのように処理すればよいか教えてください。
エラーログ:
hadoop - Hadoop でのストリーミングの使用
この Flink CEPの例を調べようとしています。この例では、データを生成および消費し、データにパターン マッチングを適用する単一のアプリケーション (一種のストリーミング アプリケーション) が作成されていることがわかります。彼らはその間にストリーミングレイヤーを入れていません(Kafkaのように)。今のところ、この目的には単一のアプリケーションで十分であり、非常に最適化されています。これで、Kafka を使用する場合、2 つのアプリケーションが必要になることがわかりました。1 つは Kafka トピックにデータを取り込むためのもので、もう 1 つは Kafka トピックからデータを消費するためのものです。答えられない質問がいくつかあります::
この例でストリーミング レイヤー (Kafka など) を使用していないのはなぜですか??
いつ、どこでストリーミングが必要ですか??
Flink CEP の例を参照すると、ストリーミング レイヤー (Kafka/Kinesis など) がどこでどのように機能するかを知りたいですか??
Kafka/Kinesis のようなストリーミング レイヤーが間に入る場合の利点/欠点は何ですか??
apache-flink - Apache Flink ウィンドウの順序
Apache Flink を使用して、Kafka イベントに保存されているタイムスタンプでソートされたストリーミング ウィンドウを作成したいと考えています。次の記事によると、これは実装されていません。
https://cwiki.apache.org/confluence/display/FLINK/Time+and+Order+in+Streams
ただし、この記事の日付は 2015 年 7 月で、現在ではほぼ 1 年後です。この機能は実装されていますか?誰かが関連するドキュメントや例を教えてくれますか?
scala - Kafka Consumer との Flink が機能しない
Spark と Flink のベンチマークを行いたいのですが、この目的のためにいくつかのテストを行っています。ただし、Flink は Kafka では動作しませんが、Spark では完全に動作します。
コードは非常に単純です。
同じトピック (コンシューマー [Flink] とプロデューサー [Kafka コンソール]) で kafka 0.9.0.0 を使用しますが、jar をクラスターに送信しても何も起こりません:
何が起こっているのでしょうか?