問題タブ [spark-structured-streaming]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1999 問題

0 投票する

2 に答える

2311 参照

apache-spark - 書き込みが最終的に終了したら、HDFS ディレクトリ内の新しいファイルを処理する方法は?

私のシナリオでは、CSV ファイルを継続的に HDFS にアップロードしています。

新しいファイルがアップロードされるとすぐに、新しいファイルを Spark SQL で処理したいと思います (たとえば、ファイル内のフィールドの最大値を計算し、ファイルをに変換しますparquet)。つまり、各入力ファイルと変換/処理された出力ファイルの間に 1 対 1 のマッピングがあります。

HDFS ディレクトリをリッスンし、Spark で「ストリーミングされたファイル」を処理するために、Spark ストリーミングを評価していました。

ただし、ファイル全体を処理するには、「ファイルストリーム」がいつ完了するかを知る必要があります。ファイル間のエンドツーエンドの 1 対 1 のマッピングを維持するために、変換をファイル全体に適用したいと考えています。

マイクロバッチではなく、ファイル全体を変換するにはどうすればよいですか?

私の知る限り、Spark Streaming は変換をバッチ (DStreamsにマップRDDs) にのみ適用でき、一度にファイル全体に適用することはできません (その有限ストリームが完了したとき)。

あれは正しいですか？もしそうなら、私のシナリオではどのような代替案を検討する必要がありますか?

2017-06-05T19:05:58.157

0 投票する

2 に答える

1136 参照

python - Spark 構造化ストリーミング- python - org.apache.kafka.common.TopicPartition; 逆シリアル化に対して無効なクラス

以下のスパークストリーミングのサンプルコードを実行しようとしています。 https://github.com/apache/spark/blob/master/examples/src/main/python/sql/streaming/structured_kafka_wordcount.py

Spark バージョン 2.0.2 を使用して AWS EMR クラスターで実行しています。以下の依存関係が spark submit に追加されます。

spark-sql-kafka-0-10_2.11-2.0.2.jar
spark-streaming-kafka-0-8-assembly_2.11-2.0.2.jar
kafka-clients-0.10.2.0.jar

以下はエラーログです：

誰かが同様の問題に直面し、それに対する解決策を持っていましたか?

を削除するspark-streaming-kafka-0-8-assembly_2.11-2.0.2.jarと、エラーが発生します

python apache-spark pyspark spark-structured-streaming

2017-06-06T20:43:16.963

1 2 3 4 5 6 7 8 9 10

問題タブ [spark-structured-streaming]

apache-spark - 書き込みが最終的に終了したら、HDFS ディレクトリ内の新しいファイルを処理する方法は?

python - Spark 構造化ストリーミング- python - org.apache.kafka.common.TopicPartition; 逆シリアル化に対して無効なクラス

Reference