問題タブ [spark-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - スパーク ストリーミングを使用したリアルタイム パケットの処理
jnetpcap を使用してリアルタイム パケットを受信しました。スパーク ストリーミングを使用してライブ パケットからパケット ヘッダーやその他の詳細を抽出する方法を教えてください。
scala - jar 内の静的リソース (src/main/resources フォルダーに対応) にアクセスするには?
Maven (jar として) で構築され、スクリプトでデプロイされたSpark Streamingアプリケーションがあります。spark-submit
アプリケーション プロジェクトのレイアウトは、標準のディレクトリ レイアウトに従います。
オブジェクトには、 (フォルダーから) Perl スクリプトを実行しようとするDoSomething.scala
メソッド (と呼びましょう) があります。2 つの引数を使用してスクリプトに渡します (最初の引数は、バイナリ ファイルへの絶対パスとして使用されます)。入力、2 番目は生成された出力ファイルのパス/名前です)。私はそれから電話します。doSomething()
aPerlScript.pl
resources
scala.sys.process.Process
DoSomething.doSomething()
問題は、絶対パス、相対パス、getClass.getClassLoader.getResource、getClass.getResource ではなく、スクリプトにアクセスできなかったことpom.xml
です。私の試みはどれも成功しませんでした。src/main/resources に置いたものを見つける方法がわかりません。
どんな助けにも感謝します。
補足:
- ワークフローのこのステップでは、バイナリ ファイルを入力および出力として処理する必要があるため、Spark パイプの代わりに外部プロセスを使用します。
- Spark-streaming 1.1.0、Scala 2.10.4、および Java 7 を使用しています。Eclipse (Kepler) 内から「Maven install」を使用して jar をビルドします。
getClass.getClassLoader.getResource
「標準」メソッドを使用してリソースにアクセスすると、実際のクラスパスがスクリプトspark-submit
のものであることがわかります。
apache-spark - spark kafka ストリーミングの最新情報を読む
kafkaを使ったsparkストリーミングで最新のメッセージだけ読みたいのですが、過去のデータも取得してしまいます
Spark の KafkaUtil で auto.offset.reset を設定する方法
現在のメッセージのみをフェッチするように conf を設定する方法。例を挙げてください。
前もってありがとう、別のスレッドもあります
しかし、十分ではありません。pls は私を助けてくれます。前もって感謝します。
apache-spark - KafkaWordCount という名前の Kafka & Spark Streaming の例の実行に失敗しました
http://rishiverma.com/software/blog/2014/07/31/spark-streaming-and-kafka-quickstart/にある KafkaWordCount という名前の例に取り組みました。
ところで、重要ではないいくつかの詳細を変更しました。そして、Kafka コンシューマーを構築する最後のステップに進んだとき、それは失敗し、次のように述べました。
誰かがこの失敗に会いましたか?
cluster-computing - Spark Streaming Computation Jobs の異なるノードへの分割
クラスターに 20 個のノードがあるとします。操作 1 は 1 秒の時間枠で単語をカウントすることであり、操作 2 は 60 秒の時間枠で操作 1 から得られた結果を合計することです (結果はもちろん 60 秒の時間枠での単語数です)。しかし、操作 1 を実行するノード 1-10 と操作 2 を実行するノード 11-20 を指定する方法はありますか? ありがとう!
apache-spark - 同時に Spark 2 アプリケーション
Spark ストリーミングを使用し、処理された出力を data.csv ファイルに保存しています
同時に、 NetworkWordCount data.csv の出力を別の新しいファイルとともに読み取り、同時に再度処理したいと思います
ここでの私の質問は
2 つの Spark アプリケーションを同時に実行することはできますか? コード自体を使用して Spark アプリケーションを送信することは可能ですか?
私はMacを使用しています。次のコマンドを使用して、sparkフォルダーからsparkアプリケーションを送信しています
または単に spark:ip:port とエグゼキュータ メモリなし、エグゼキュータ コアの合計
バッチ処理用のテキストファイルを次のように読み取る他のアプリケーション
SparkStreamingTest と BatchTest の両方のアプリケーションを別々に実行すると、両方とも正常に動作しますが、両方を同時に実行しようとすると、次のエラーが発生します
現在、私はスパークスタンドアローンモードを使用しています
どんな助けも大いに感謝しています..私は完全に頭がおかしいです
scala - オフセットを使用して 2 つのウィンドウ化された DStream で操作を実行するにはどうすればよいですか?
異なるウィンドウを持つ 2 つの DStream の違いを (キーで) 計算したいと思います。これは、結合によって実現できます。ただし、DStreams 間にオフセットが必要です。これを行う 1 つの方法は、DStreams の 1 つの N ウィンドウを削除することですが、その方法もわかりません。