問題タブ [spark-structured-streaming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2311 参照

apache-spark - 書き込みが最終的に終了したら、HDFS ディレクトリ内の新しいファイルを処理する方法は?

私のシナリオでは、CSV ファイルを継続的に HDFS にアップロードしています。

新しいファイルがアップロードされるとすぐに、新しいファイルを Spark SQL で処理したいと思います (たとえば、ファイル内のフィールドの最大値を計算し、ファイルを に変換しますparquet)。つまり、各入力ファイルと変換/処理された出力ファイルの間に 1 対 1 のマッピングがあります。

HDFS ディレクトリをリッスンし、Spark で「ストリーミングされたファイル」を処理するために、Spark ストリーミングを評価していました。

ただし、ファイル全体を処理するには、「ファイル ストリーム」がいつ完了するかを知る必要があります。ファイル間のエンド ツー エンドの 1 対 1 のマッピングを維持するために、変換をファイル全体に適用したいと考えています。

マイクロバッチではなく、ファイル全体を変換するにはどうすればよいですか?

私の知る限り、Spark Streaming は変換をバッチ (DStreamsにマップRDDs) にのみ適用でき、一度にファイル全体に適用することはできません (その有限ストリームが完了したとき)。

あれは正しいですか?もしそうなら、私のシナリオではどのような代替案を検討する必要がありますか?

0 投票する
2 に答える
1136 参照

python - Spark 構造化ストリーミング- python - org.apache.kafka.common.TopicPartition; 逆シリアル化に対して無効なクラス

以下のスパークストリーミングのサンプルコードを実行しようとしています。 https://github.com/apache/spark/blob/master/examples/src/main/python/sql/streaming/structured_kafka_wordcount.py

Spark バージョン 2.0.2 を使用して AWS EMR クラスターで実行しています。以下の依存関係が spark submit に追加されます。

  • spark-sql-kafka-0-10_2.11-2.0.2.jar
  • spark-streaming-kafka-0-8-assembly_2.11-2.0.2.jar
  • kafka-clients-0.10.2.0.jar

以下はエラーログです:

誰かが同様の問題に直面し、それに対する解決策を持っていましたか?

を削除するspark-streaming-kafka-0-8-assembly_2.11-2.0.2.jarと、エラーが発生します