問題タブ [spark-cassandra-connector]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - データが大きい場合、cassandra から spark にデータをキャッシュするにはどうすればよいですか?
データが十分に大きく、一度メモリにキャッシュできない場合、cassandraからsparkにいくつかのデータを取得します.spark.cassandra.input.split.size_in_mbを使用して、マシンが一度に取得できるデータの大きさを設定する必要があります.しかしまた、を使用してより多くの時間データをキャッシュしたい ,コードは次のようになります:
それが正しいか?それが正しい場合、それはどのように機能しますか?それが間違っているとき、正しい方法は何ですか?
cassandra - cassandra - 誰が何をしたかを見つけるためのログ
私はcassandraを初めて使用し、主にDevops側からcassandrをインストールして構成し、使用できるように提供しています。
テーブルが切り捨てられ、誰がそれを行っているのかわからない場合があります。誰が切り捨てを行ったか、cassandra に変更を加えたかを確認する方法はありますか?
apache-spark - Spark RDD マップ 1 対多
私はスパークするのが初めてで、問題があります。csv ファイルである textFile() で生成された RDD を処理しています。行ごとに、複数の行を新しい RDD (複数ではなく単一の行) に返したいと考えています。これは私のコードです:
ここで行っているのは、最初の csv をフィルター処理して LinearAccelerationEvent のみを取得することです。次に、これらのオブジェクトを LinearAccelerationEvent クラスにマップし、LinearAccelerationEvent オブジェクトの新しい RDD を生成します。最初の csv ファイルの各行に対して、複数の LinearAccelerometerEvent オブジェクトを生成する必要がありますが、その方法がわかりません。私がやりたい理由は、後でこの RDD が次のように cassandra にプッシュされるためです。
したがって、理想的なソリューションは次のようになります。
関数を使用しforeachPartition()
て for ループの各イベントを Cassandra にプッシュすることはできますが、このアプローチははるかに遅いことがわかりました。私がやりたいことをするために foreach を使用しないことは可能ですか? ありがとうございました
scala - Spark から Cassandra に接続できません (連絡先には複数のデータ センターが含まれます)
最初のスパーク ジョブ (Cassandra にアクセスする Scala ジョブ) を実行しようとしていますが、失敗して次のエラーが表示されます。
ここで何が間違っていますか?
私は使っている :
- スパーク 1.5.2
- アパッチ カサンドラ 2.1.10
- spark-cassandra コネクタ 1.3.1 /1.5.0-M2 (両方のコネクタを試しました)
- Scala バージョン 2.10.4
apache-spark - Scala 2.11 用の Spark 用の Cassandra コネクタを組み立てる方法は?
Spark-Cassandra Connector アセンブリの作成方法を教えてもらえますか? Github ページhttps://github.com/datastax/spark-cassandra-connectorの指示に従ってみましたが、何百もの「重複排除」エラーが発生します。
私は Scala 2.11.7 を Spark 1.5.1 (Scala 2.11 用にビルドしたもの) と SBT 13.8 で使用しています。
私は次のことをしました:
ビルド プロセスはしばらく実行されますが、数百の「重複排除」エラーが発生して失敗します。どこから修正を開始すればよいかわかりませんが、現時点では、このプロジェクトのアセンブリ ビルド プロセスが機能していないことがわかります。
これを修正する方法に関するヒントはありますか?
scala - Spark DataFramesを使用してJSONデータ列をクエリするには?
簡単にするために、次のようなCassandraテーブルがあります。
spark と spark-cassandra-connector を使用して、このための基本的なデータ フレームを作成できます。
JSONデータをその基礎となる構造に拡張するのに苦労しています。最終的には、json 文字列内の属性に基づいてフィルター処理し、ブロブ データを返すことができるようにしたいと考えています。jsonData.foo = "bar" のようなもので、blobData を返します。これは現在可能ですか?
apache-spark - sparkタスクを開始するときの1つのノードcassandaオーバーロード
Cassandra 2.1.11、スタンドアロン Spark 1.5、cassandra-connector 2.10:1.5 で 20 ノードのクラスターがあります。Spark タスクを実行すると正常に完了しましたが、タスクを開始する最初の瞬間に、ノードの 1 つが非常に過負荷になります (OS 負荷は約 90%、cassandra ヒープ使用率は 100%)。数秒後、ヒープは通常どおり (3-4Gib) になりますが、場合によっては OutOfMemory (ヒープによる) または GC の長い一時停止があります。すべてのテストで、単一の過負荷ノードは同じです。
すべてのノードに同じ cassandra パラメーターと xmx=19Gib があります。
単一のcassandraノードの過負荷を解決するには?