問題タブ [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - すべてのワーカーを使用しない構造化ストリーミング ジョブ
ソースとして Apache Kafka データ ストリームに接続する Spark 2.0.2 構造化ストリーミング ジョブがあります。このジョブは、Kafka から Twitter データ (JSON) を取り込み、CoreNLP を使用して、センチメント、品詞のタグ付けなどでデータに注釈を付けますlocal[*]
。マスターとうまく連携します。ただし、スタンドアロンの Spark クラスターをセットアップすると、データの処理に使用されるワーカーは 1 つだけになります。同じ能力を持つ 2 人のワーカーがいます。
欠落しているジョブを送信するときに設定する必要があるものはありますか? コマンド--num-executors
で を設定しようとしましたが、うまくいきませんでした。spark-submit
正しい方向へのポインタを前もってありがとう。
java-8 - Spark カサンドラ NoClassDefFoundError グアバ/キャッシュ/CacheLoader
Cassandra 2.2.8、Win7、JDK8、Spark2 を実行し、CP に含まれている: Cassandra コア 3.12、spark-cassandra-2.11、Spark-cassandra-java-2.11、Spark2.11、spark-network-common_2.11、Guava- 16.0.jar、sacala2.11.jar など 基本的な例を実行しようとすると、問題なくコンパイルされますが、実行しようとすると、最初の行自体でエラーが発生します。
SparkConf conf = new SparkConf();
java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader
spark-network-commonが欠落していると、このエラーが発生するはずですが、私はそれを持っています。競合する jar はありますか? ありがとう
java - Cassandra の Spark2 セッション、SQL クエリ
Spark-2.0 で Spark セッションを作成する最良の方法は何ですか。Spark-2.0 と Cassandra- の両方で API が作り直され、基本的に SqlContext (および CassandraSqlContext) が非推奨になったためです。したがって、SQL を実行するには、Cassandra Session を作成します(com.datastax.driver.core.Session) and use execute( " ")
。または、SparkSession (org.apache.spark.sql.SparkSession) and execute sql(String sqlText)
メソッドを作成する必要があります。
どちらのSQLの制限もわかりません-誰かが説明できますか。
また、SparkSession を作成する必要がある場合 - どうすればよいですか - 適切な例が見つかりませんでした。API が作り直されると、古い例は機能しなくなります。私はこのコードサンプル- DataFramesを使用していました-ここで使用されているSQLコンテキストが明確ではありません(それが正しいアプローチであるということです)(何らかの理由で非推奨のAPIはコンパイルさえされていません-Eclipseの設定を確認する必要があります)
ありがとう
amazon-web-services - Spark UI を使用せずに AWS EMR で Spark クラスターを監視する
AWS EMR で Spark クラスターを実行しています。spark UI を使用せずに、AWS EMR で実行されているジョブとエグゼキューターのすべての詳細を取得するにはどうすればよいですか? 監視と最適化に使用します。
apache-spark - Spark での変換とアクションの動作は何ですか?
Spark SQL を使用した Spark での変換とアクションの動作を評価するために、いくつかのテストを実行しています。テストでは、まず、2 つの変換と 1 つのアクションを含む単純なデータフローを考えます。
この最初のデータフローの実行時間は 10 秒でした。次に、データフローに別のアクションを追加しました。
データフローの 2 番目のバージョンを分析すると、すべての変換が遅延してアクションごとに再実行されるため (ドキュメントによると)、2 番目のカウントを実行するときに、前の 2 つの変換 (LOAD と SELECT ALL) の実行が必要になるはずです。したがって、データフローのこの 2 番目のバージョンを実行すると、時間は約 20 秒になると予想されました。ただし、実行時間は 11 秒でした。どうやら、最初のカウントで必要な変換の結果は、2 番目のカウントのために Spark によってキャッシュされたようです。
どうか、何が起こっているか知っていますか?
java - spark2 データフレームの reduceByKeyAndWindow
Spark 1.6では、StreamingContext
関数を使用できましたreduceByKeyAndWindow
現在、spark 2.0.2 と Dataframes でこのロジックを再現しようとしています。欠落している関数 reduceByKey を再現できましたが、ウィンドウはありません
でウィンドウを実装できましたgroupBy
groupByを使用したとき、15列のうち2列しか取得できなかったので、結合してそれらを取得しようとしましたが、例外が発生しました:join between two streaming DataFrames/Datasets is not supported;
reduceByKeyAndWindow
spark 2のロジックを再現する方法はありますか?
json - Livy サーバー:データフレームを JSON として返しますか?
localhost:8998/sessions/0/statements
次の本文で、へのHTTP POST 呼び出しを使用して、Livy Server でステートメントを実行しています。
次の形式で回答を希望します
しかし、私が得ているのは
データフレームのtoString()
バージョンです。
Livy サーバーを使用してデータフレームを JSON として返す方法はありますか?
編集
問題に対処する JIRA の問題を見つけました: https://issues.cloudera.org/browse/LIVY-72
コメントによって、Livy はそのような機能をサポートしておらず、今後もサポートしないと言えますか?