問題タブ [spark-cassandra-connector]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1424 参照

scala - スパークで単一の行から複数​​の行を生成する

次のデータモデルを使用してcassandraにいくつかのデータがあります。

今、私はこのデータを何かに変換したい:

現在、開始日と終了日を取り、transaction_date のタプル (Date 部分のみ) と、トランザクションがアクティブだった時間の値が 1 の 24 サイズの配列を返し、元の RDD を transaction_date を使用して PairRDD にマップする関数を作成しました。 (日付部分のみ) をキーとして、配列を値として。この後、キーに対してreduceを実行し、配列の個々の要素をすべて追加して、目的の出力を取得します。

問題は、トランザクションが深夜に開始され、真夜中過ぎに完了する場合があるため、そのような場合、関数から 2 行を返して、トランザクションごとに返された RDD で 2 行を取得することです。

Spark バージョン: 1.2.2
使用される API は Scala
Spark Cassandra コネクタ バージョン 1.2.2 です。

0 投票する
2 に答える
1631 参照

elasticsearch - Spark-Cassandra 対 Spark-Elasticsearch

私はかなり前から Elasticsearch を使用しており、Cassandra を使用した経験はほとんどありません。

現在、spark を使用してデータを処理したいプロジェクトがありますが、データをロードするためのデータストアとして Cassandra と Elasticsearch のどちらを使用するかを決定する必要があります。

コネクタに関しては、Cassandra と Elasticsearch の両方にデータをロードするための優れたコネクタが備わっているため、決定要因にはなりません。

決定する勝敗の要因は、Spark 内でデータをどれだけ速くロードできるかです。私のデータはほぼ 20 テラバイトです。

JMeter を使用していくつかのテストを実行し、結果を自分で確認できることは知っていますが、両方のシステムに精通している人に尋ねたいと思います。

ありがとう

0 投票する
2 に答える
1278 参照

scala - Sparkシェルでカスタムケースクラスを使用するとシリアル化エラーが発生するのはなぜですか?

私の人生では、なぜこれがシリアル化できないのか理解できません。私はspark-shell(貼り付けモード)で以下を実行しています。Spark 1.3.1、Cassandra 2.1.6、Scala 2.10 で実行しています

私はこれでspark-shellを始めました:

-Dsun.io.serialization.extendedDebugInfo=true プロパティを含めても違いは見られませんでした。

完全なエラー (編集):

ワーカーログとは異なるもの:

0 投票する
1 に答える
114 参照

scala - 動的リスト内のエスケープ文字

ケース クラスの作成に使用される動的リスト内の文字をエスケープしたいと思います。

次のエラーが表示されます。

アイデアはありますか?

0 投票する
4 に答える
1879 参照

cassandra - ある cassandra クラスターから別の cassandra クラスターに列ファミリーをコピーする方法は?

ある cassandra クラスターから別の cassandra クラスターに列ファミリーをコピーする方法は?

シナリオ:

  1. ホストの IP (ソース クラスターとターゲット クラスターの両方)、ポート、key_space 名、および column_family 名しかありません。
  2. 既にターゲット クラスターにメタデータを作成しています (データのみをコピーする必要があります)。
  3. 最も優先的には、spark-cassandra コネクタ JAVA API を使用して、これを単一/複数の Spark ジョブ (中間で DataFrame を作成してから保存する) で実行したいと考えています。
  4. datastax の cassandra-java ドライバーを使用して優先的にモデレートします。
  5. cassandra-jdbc ドライバーと spark-cassandra コネクター JAVA API を使用することを優先しません。

事前に感謝します。

0 投票する
2 に答える
10104 参照

scala - Spark Streaming を使用した Cassandra からの読み取り

Spark Streaming を使用して Cassandra から読み取るときに問題が発生します。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/8_streaming.md#reading-from-cassandra-from-the-streamingcontext

上記のリンクのように、私は使用します

カサンドラからデータを選択しますが、スパークストリーミングには1回のクエリしかないようですが、間隔10秒を使用してクエリを続行したいです。

私のコードは次のとおりです。あなたの応答を願っています。

ありがとう!

}

0 投票する
1 に答える
191 参照

scala - カスタム集計 OperationTimedOut の実行に失敗しました: エラー ={}、last_host=127.0.0.1

inにenable_user_defined_functions設定して apache-cassandra-2.2.1 を実行しています。この記事に基づいて、カスタム集計を次のように定義しました。truecassandra.yml

CQLSH コンソールからこれを呼び出すと、タイムアウトが表示されます。

他のクエリを正常に実行できます。scala からクエリを実行することもできます (ただし、完全な結果セットは得られません)。