3

24 時間年中無休でスパーク ストリーミングを実行していて、updateStateByKey を使用しています。スパーク ストリーミングを 24 時間年中無休で実行することは可能ですか? はい、updateStateByKey が大きくならない場合、どのように処理しますか? updateStateByKey を 24 時間年中無休で実行する場合、定期的にリセット/削除する必要がありますか? または、Spark は分散された方法で処理しますか? メモリ/ストレージを動的に作成する方法。

updateStateByKey が大きくなると、次のエラーが発生します。

Array out of bound exception

Exception while deleting local spark dir: /var/folders/3j/9hjkw0890sx_qg9yvzlvg64cf5626b/T/spark-local-20141026101251-cfb4
java.io.IOException: Failed to delete: /var/folders/3j/9hjkw0890sx_qg9yvzlvg64cf5626b/T/spark-local-20141026101251-cfb4

これを処理する方法..ドキュメントがある場合は教えてください。私は完全に立ち往生しています。どんな助けも大歓迎です..時間をありがとう

4

3 に答える 3

5

Java では Optional.absent() を使用し、Scala では None を使用してキーを削除します。実際の例はhttp://blog.cloudera.com/blog/2014/11/how-to-do-near-real-time-sessionization-with-spark-streaming-and-apache-hadoop/にあります。

于 2015-03-11T22:39:44.247 に答える