問題タブ [spark-structured-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 書き込みが最終的に終了したら、HDFS ディレクトリ内の新しいファイルを処理する方法は?
私のシナリオでは、CSV ファイルを継続的に HDFS にアップロードしています。
新しいファイルがアップロードされるとすぐに、新しいファイルを Spark SQL で処理したいと思います (たとえば、ファイル内のフィールドの最大値を計算し、ファイルを に変換しますparquet
)。つまり、各入力ファイルと変換/処理された出力ファイルの間に 1 対 1 のマッピングがあります。
HDFS ディレクトリをリッスンし、Spark で「ストリーミングされたファイル」を処理するために、Spark ストリーミングを評価していました。
ただし、ファイル全体を処理するには、「ファイル ストリーム」がいつ完了するかを知る必要があります。ファイル間のエンド ツー エンドの 1 対 1 のマッピングを維持するために、変換をファイル全体に適用したいと考えています。
マイクロバッチではなく、ファイル全体を変換するにはどうすればよいですか?
私の知る限り、Spark Streaming は変換をバッチ (DStreams
にマップRDDs
) にのみ適用でき、一度にファイル全体に適用することはできません (その有限ストリームが完了したとき)。
あれは正しいですか?もしそうなら、私のシナリオではどのような代替案を検討する必要がありますか?
python - Spark 構造化ストリーミング- python - org.apache.kafka.common.TopicPartition; 逆シリアル化に対して無効なクラス
以下のスパークストリーミングのサンプルコードを実行しようとしています。 https://github.com/apache/spark/blob/master/examples/src/main/python/sql/streaming/structured_kafka_wordcount.py
Spark バージョン 2.0.2 を使用して AWS EMR クラスターで実行しています。以下の依存関係が spark submit に追加されます。
spark-sql-kafka-0-10_2.11-2.0.2.jar
spark-streaming-kafka-0-8-assembly_2.11-2.0.2.jar
kafka-clients-0.10.2.0.jar
以下はエラーログです:
誰かが同様の問題に直面し、それに対する解決策を持っていましたか?
を削除するspark-streaming-kafka-0-8-assembly_2.11-2.0.2.jar
と、エラーが発生します