問題タブ [spark-cassandra-connector]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
589 参照

apache-spark - データが大きい場合、cassandra から spark にデータをキャッシュするにはどうすればよいですか?

データが十分に大きく、一度メモリにキャッシュできない場合、cassandraからsparkにいくつかのデータを取得します.spark.cassandra.input.split.size_in_mbを使用して、マシンが一度に取得できるデータの大きさを設定する必要があります.しかしまた、を使用してより多くの時間データをキャッシュしたい ,コードは次のようになります:

それが正しいか?それが正しい場合、それはどのように機能しますか?それが間違っているとき、正しい方法は何ですか?

0 投票する
1 に答える
110 参照

cassandra - cassandra - 誰が何をしたかを見つけるためのログ

私はcassandraを初めて使用し、主にDevops側からcassandrをインストールして構成し、使用できるように提供しています。

テーブルが切り捨てられ、誰がそれを行っているのかわからない場合があります。誰が切り捨てを行ったか、cassandra に変更を加えたかを確認する方法はありますか?

0 投票する
1 に答える
1563 参照

apache-spark - Spark RDD マップ 1 対多

私はスパークするのが初めてで、問題があります。csv ファイルである textFile() で生成された RDD を処理しています。行ごとに、複数の行を新しい RDD (複数ではなく単一の行) に返したいと考えています。これは私のコードです:

ここで行っているのは、最初の csv をフィルター処理して LinearAccelerationEvent のみを取得することです。次に、これらのオブジェクトを LinearAccelerationEvent クラスにマップし、LinearAccelerationEvent オブジェクトの新しい RDD を生成します。最初の csv ファイルの各行に対して、複数の LinearAccelerometerEvent オブジェクトを生成する必要がありますが、その方法がわかりません。私がやりたい理由は、後でこの RDD が次のように cassandra にプッシュされるためです。

したがって、理想的なソリューションは次のようになります。

関数を使用しforeachPartition()て for ループの各イベントを Cassandra にプッシュすることはできますが、このアプローチははるかに遅いことがわかりました。私がやりたいことをするために foreach を使用しないことは可能ですか? ありがとうございました

0 投票する
2 に答える
1746 参照

scala - Spark から Cassandra に接続できません (連絡先には複数のデータ センターが含まれます)

最初のスパーク ジョブ (Cassandra にアクセスする Scala ジョブ) を実行しようとしていますが、失敗して次のエラーが表示されます。

ここで何が間違っていますか?

私は使っている :

  • スパーク 1.5.2
  • アパッチ カサンドラ 2.1.10
  • spark-cassandra コネクタ 1.3.1 /1.5.0-M2 (両方のコネクタを試しました)
  • Scala バージョン 2.10.4
0 投票する
1 に答える
623 参照

apache-spark - Scala 2.11 用の Spark 用の Cassandra コネクタを組み立てる方法は?

Spark-Cassandra Connector アセンブリの作成方法を教えてもらえますか? Github ページhttps://github.com/datastax/spark-cassandra-connectorの指示に従ってみましたが、何百もの「重複排除」エラーが発生します。

私は Scala 2.11.7 を Spark 1.5.1 (Scala 2.11 用にビルドしたもの) と SBT 13.8 で使用しています。

私は次のことをしました:

ビルド プロセスはしばらく実行されますが、数百の「重複排除」エラーが発生して失敗します。どこから修正を開始すればよいかわかりませんが、現時点では、このプロジェクトのアセンブリ ビルド プロセスが機能していないことがわかります。

これを修正する方法に関するヒントはありますか?

0 投票する
5 に答える
105427 参照

scala - Spark DataFramesを使用してJSONデータ列をクエリするには?

簡単にするために、次のようなCassandraテーブルがあります。

spark と spark-cassandra-connector を使用して、このための基本的なデータ フレームを作成できます。

JSONデータをその基礎となる構造に拡張するのに苦労しています。最終的には、json 文字列内の属性に基づいてフィルター処理し、ブロブ データを返すことができるようにしたいと考えています。jsonData.foo = "bar" のようなもので、blobData を返します。これは現在可能ですか?

0 投票する
0 に答える
148 参照

apache-spark - sparkタスクを開始するときの1つのノードcassandaオーバーロード

Cassandra 2.1.11、スタンドアロン Spark 1.5、cassandra-connector 2.10:1.5 で 20 ノードのクラスターがあります。Spark タスクを実行すると正常に完了しましたが、タスクを開始する最初の瞬間に、ノードの 1 つが非常に過負荷になります (OS 負荷は約 90%、cassandra ヒープ使用率は 100%)。数秒後、ヒープは通常どおり (3-4Gib) になりますが、場合によっては OutOfMemory (ヒープによる) または GC の長い一時停止があります。すべてのテストで、単一の過負荷ノードは同じです。

すべてのノードに同じ cassandra パラメーターと xmx=19Gib があります。

単一のcassandraノードの過負荷を解決するには?