“spark-cassandra-connector”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

589 参照

apache-spark - データが大きい場合、cassandra から spark にデータをキャッシュするにはどうすればよいですか?

データが十分に大きく、一度メモリにキャッシュできない場合、cassandraからsparkにいくつかのデータを取得します.spark.cassandra.input.split.size_in_mbを使用して、マシンが一度に取得できるデータの大きさを設定する必要があります.しかしまた、を使用してより多くの時間データをキャッシュしたい ,コードは次のようになります:

それが正しいか？それが正しい場合、それはどのように機能しますか？それが間違っているとき、正しい方法は何ですか？

2015-11-24T10:55:00.093

0 投票する

1 に答える

110 参照

cassandra - cassandra - 誰が何をしたかを見つけるためのログ

私はcassandraを初めて使用し、主にDevops側からcassandrをインストールして構成し、使用できるように提供しています。

テーブルが切り捨てられ、誰がそれを行っているのかわからない場合があります。誰が切り捨てを行ったか、cassandra に変更を加えたかを確認する方法はありますか?

cassandra cassandra-2.0 spark-cassandra-connector

2015-11-24T12:51:40.980

0 投票する

1 に答える

1563 参照

apache-spark - Spark RDD マップ 1 対多

私はスパークするのが初めてで、問題があります。csv ファイルである textFile() で生成された RDD を処理しています。行ごとに、複数の行を新しい RDD (複数ではなく単一の行) に返したいと考えています。これは私のコードです：

ここで行っているのは、最初の csv をフィルター処理して LinearAccelerationEvent のみを取得することです。次に、これらのオブジェクトを LinearAccelerationEvent クラスにマップし、LinearAccelerationEvent オブジェクトの新しい RDD を生成します。最初の csv ファイルの各行に対して、複数の LinearAccelerometerEvent オブジェクトを生成する必要がありますが、その方法がわかりません。私がやりたい理由は、後でこの RDD が次のように cassandra にプッシュされるためです。

したがって、理想的なソリューションは次のようになります。

関数を使用しforeachPartition()て for ループの各イベントを Cassandra にプッシュすることはできますが、このアプローチははるかに遅いことがわかりました。私がやりたいことをするために foreach を使用しないことは可能ですか? ありがとうございました

apache-spark rdd spark-cassandra-connector

2015-11-29T09:32:07.730

0 投票する

2 に答える

1746 参照

scala - Spark から Cassandra に接続できません (連絡先には複数のデータセンターが含まれます)

最初のスパークジョブ (Cassandra にアクセスする Scala ジョブ) を実行しようとしていますが、失敗して次のエラーが表示されます。

ここで何が間違っていますか？

私は使っている：

スパーク 1.5.2
アパッチカサンドラ 2.1.10
spark-cassandra コネクタ 1.3.1 /1.5.0-M2 (両方のコネクタを試しました)
Scala バージョン 2.10.4

scala apache-spark cassandra cassandra-2.0 spark-cassandra-connector

2015-11-30T17:58:13.320

0 投票する

1 に答える

623 参照

apache-spark - Scala 2.11 用の Spark 用の Cassandra コネクタを組み立てる方法は?

Spark-Cassandra Connector アセンブリの作成方法を教えてもらえますか? Github ページhttps://github.com/datastax/spark-cassandra-connectorの指示に従ってみましたが、何百もの「重複排除」エラーが発生します。

私は Scala 2.11.7 を Spark 1.5.1 (Scala 2.11 用にビルドしたもの) と SBT 13.8 で使用しています。

私は次のことをしました：

ビルドプロセスはしばらく実行されますが、数百の「重複排除」エラーが発生して失敗します。どこから修正を開始すればよいかわかりませんが、現時点では、このプロジェクトのアセンブリビルドプロセスが機能していないことがわかります。

これを修正する方法に関するヒントはありますか?

apache-spark spark-cassandra-connector

2015-12-01T10:18:02.853

0 投票する

5 に答える

105427 参照

scala - Spark DataFramesを使用してJSONデータ列をクエリするには?

簡単にするために、次のようなCassandraテーブルがあります。

spark と spark-cassandra-connector を使用して、このための基本的なデータフレームを作成できます。

JSONデータをその基礎となる構造に拡張するのに苦労しています。最終的には、json 文字列内の属性に基づいてフィルター処理し、ブロブデータを返すことができるようにしたいと考えています。jsonData.foo = "bar" のようなもので、blobData を返します。これは現在可能ですか？

scala apache-spark dataframe apache-spark-sql spark-cassandra-connector

2015-12-03T15:03:22.117

0 投票する

0 に答える

148 参照

apache-spark - sparkタスクを開始するときの1つのノードcassandaオーバーロード

Cassandra 2.1.11、スタンドアロン Spark 1.5、cassandra-connector 2.10:1.5 で 20 ノードのクラスターがあります。Spark タスクを実行すると正常に完了しましたが、タスクを開始する最初の瞬間に、ノードの 1 つが非常に過負荷になります (OS 負荷は約 90%、cassandra ヒープ使用率は 100%)。数秒後、ヒープは通常どおり (3-4Gib) になりますが、場合によっては OutOfMemory (ヒープによる) または GC の長い一時停止があります。すべてのテストで、単一の過負荷ノードは同じです。

すべてのノードに同じ cassandra パラメーターと xmx=19Gib があります。

単一のcassandraノードの過負荷を解決するには?

apache-spark cassandra spark-cassandra-connector

2015-12-06T14:18:37.433

問題タブ [spark-cassandra-connector]

Reference