“spark-cassandra-connector”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

645 参照

scala - Spark 1.5.1 + Scala 2.10 + Kafka + Cassandra = Java.lang.NoSuchMethodError:

Kafka + Cassandra を Spark 1.5.1 に接続したい。

ライブラリのバージョン:

アプリへの初期化と使用:

次のように Cassandra にスキーマを作成します。

また、準備jarができたら、いくつかの戦略を作成します。

問題は関連していると思います

使用に縛られますMergeStrategy.last。

何か案は？

例外があります:

2015-11-07T13:16:14.460

0 投票する

0 に答える

571 参照

scala - スパークのcassandraで同じRDDの一部として異なるオブジェクトタイプを保存する

Spark でクエリのリストを並列処理しています。私の RDD は、各クエリのデータソース属性に基づいてオブジェクトタイプが異なるオブジェクトのコレクションにマップされます。String -> function のマップを持っています。各関数は、cassandra に保存されるオブジェクトのコレクションを提供します。例えば：

ここで、processTrendsResponse は Seq[Trends] を返す関数として定義され、processYahooResponse は Seq[Yahoo] を返す関数として定義されます。トレンドと Yahoo 定義はケースクラスとして定義されます。

Trends と Yahoo の両方のタイプに対応するために、processingMethods Map は Map[String, (String) => Seq[Any]] として定義されました。しかし、スパークで saveToCassandra アクションを実行すると、例外でゲートされます-

前もって感謝します

scala apache-spark spark-cassandra-connector

2015-11-09T19:15:26.483

0 投票する

3 に答える

336 参照

apache-spark - Spark Cassandra のパフォーマンスの問題

私は Spark と Cassandra の新しい学習者です。重大なパフォーマンスの問題に直面しています。Spark で 5 秒ごとに Kafka からデータをストリーミングし、JRI を使用して R 言語でデータを分析し、最終的にデータを Cassandra のそれぞれの列ファミリーに保存しています。データを Cassandra に保存するための時間 (ミリ秒単位) は、入力要求の数に応じて急速に増加します [各要求は 200 KB]。

スパークコード:

apache-spark cassandra spark-cassandra-connector

2015-11-09T19:49:53.210

0 投票する

2 に答える

3454 参照

java - スキーマを変更し、追加のプロパティを追加して、Spark から Cassandra テーブルに DataFrame を保存する方法

Spark SQL を使用して、Cassandra データベースからデータを取得しました。

その後、いくつかのフィルタリングを行い、このデータを次のような別の Cassandra テーブルに保存したいと考えています。

DataFrameを新しいテーブルに保存するときに、これらの追加のプロパティを追加するにはどうすればよいですか? また、この例を使用して Cassandra の長い行を分割するベストプラクティスは何ですか? には 4,000 ～ 6,000 のレコードがあると予想されるDataFrameため、長い行をシャーディングすることは必須ですが、レコードを数えてsharder特定の数のアイテムのを変更することが、Spark または Cassandra でのベストプラクティスであるかどうかはわかりません。

java apache-spark cassandra spark-cassandra-connector

2015-11-13T09:16:34.677

0 投票する

1 に答える

503 参照

apache-spark - Spark Cassandra コネクタでの NoSuchMethodError

Cassandra 2.2.3 (localhost で実行) を Spark 1.5.1 および最新バージョンの spark-cassandra-connector (1.5.0-M2) で動作させようとしています。

これが私が使用している基本的なスニペットコードです。キースペースとテーブルはすでに作成されています。

sbt アセンブリでは問題なくコンパイルされますが、アプリを送信すると次のエラーが発生します。

apache-spark cassandra datastax spark-cassandra-connector

2015-11-15T19:44:26.447

0 投票する

1 に答える

4208 参照

java - Spark はすべてのアクションを 2 回実行しています

Apache Spark を使用して Cassandra からデータを取得し、データを変換して別の Cassandra テーブルに保存する単純な Java アプリケーションを作成しました。

マシン上にある単一のマスターとスレーブを使用して、スタンドアロンクラスターモードで構成された Apache Spark 1.4.1 を使用しています。

ご覧cacheのcustomersWhoHaventOrderedTheProductとおり、DataFrame を実行した後、を実行してcountを呼び出しますtoJavaRDD。

私の計算では、これらのアクションは 1 回だけ実行する必要があります。しかし、現在のジョブの Spark UI に移動すると、次のステージが表示されます。

ご覧のとおり、すべてのアクションが 2 回実行されます。

私は何か間違ったことをしていますか？見逃した設定はありますか？

どんなアイデアでも大歓迎です。

編集：

私が電話した後System.out.println(storeCustomerReport.toJavaRDD().toDebugString());

これはデバッグ文字列です:

編集2：

そのため、いくつかの調査と試行錯誤を組み合わせた結果、仕事を最適化することができました。

から RDD を作成し、アクションcustomersWhoHaventOrderedTheProductを呼び出す前にそれをキャッシュします。count()(キャッシュをからに移動しDataFrameましたRDD)。

その後、これRDDを使用してstoreCustomerReport DataFrame.

ステージは次のようになります。

ご覧のとおり、2 つのcountとcacheはなくなりましたが、まだ 2 つの「javaRDD」アクションがあります。toJavaRDDコード内で 1 回しか呼び出していないため、それらがどこから来ているのかわかりません。

java apache-spark spark-cassandra-connector

2015-11-17T15:24:45.333

0 投票する

2 に答える

4600 参照

scala - scala.ScalaReflectionException:は用語ではありません

Spark に次のコードがあります。

どこ

どこ：

saveToCassandraはオブジェクトのコレクションを期待しSeq[Any]、戻り値の型として両方を含むように使用し、例外Seq[A]でSeq[B]中断saveToCassandraします -scala.ScalaReflectionException: <none>は用語ではありません。この動作の理由は何でしょうか?

scala apache-spark spark-cassandra-connector

2015-11-19T18:40:33.543

問題タブ [spark-cassandra-connector]

Reference