問題タブ [spark-cassandra-connector]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

884 問題

0 投票する

1 に答える

1424 参照

scala - スパークで単一の行から複数の行を生成する

次のデータモデルを使用してcassandraにいくつかのデータがあります。

今、私はこのデータを何かに変換したい:

現在、開始日と終了日を取り、transaction_date のタプル (Date 部分のみ) と、トランザクションがアクティブだった時間の値が 1 の 24 サイズの配列を返し、元の RDD を transaction_date を使用して PairRDD にマップする関数を作成しました。 (日付部分のみ) をキーとして、配列を値として。この後、キーに対してreduceを実行し、配列の個々の要素をすべて追加して、目的の出力を取得します。

問題は、トランザクションが深夜に開始され、真夜中過ぎに完了する場合があるため、そのような場合、関数から 2 行を返して、トランザクションごとに返された RDD で 2 行を取得することです。

Spark バージョン: 1.2.2
使用される API は Scala
Spark Cassandra コネクタバージョン 1.2.2 です。

2015-08-26T18:24:44.760

0 投票する

2 に答える

1631 参照

elasticsearch - Spark-Cassandra 対 Spark-Elasticsearch

私はかなり前から Elasticsearch を使用しており、Cassandra を使用した経験はほとんどありません。

現在、spark を使用してデータを処理したいプロジェクトがありますが、データをロードするためのデータストアとして Cassandra と Elasticsearch のどちらを使用するかを決定する必要があります。

コネクタに関しては、Cassandra と Elasticsearch の両方にデータをロードするための優れたコネクタが備わっているため、決定要因にはなりません。

決定する勝敗の要因は、Spark 内でデータをどれだけ速くロードできるかです。私のデータはほぼ 20 テラバイトです。

JMeter を使用していくつかのテストを実行し、結果を自分で確認できることは知っていますが、両方のシステムに精通している人に尋ねたいと思います。

ありがとう

elasticsearch apache-spark cassandra-2.0 spark-cassandra-connector elasticsearch-hadoop

2015-08-28T20:53:07.113

0 投票する

2 に答える

1278 参照

scala - Sparkシェルでカスタムケースクラスを使用するとシリアル化エラーが発生するのはなぜですか?

私の人生では、なぜこれがシリアル化できないのか理解できません。私はspark-shell（貼り付けモード）で以下を実行しています。Spark 1.3.1、Cassandra 2.1.6、Scala 2.10 で実行しています

私はこれでspark-shellを始めました：

-Dsun.io.serialization.extendedDebugInfo=true プロパティを含めても違いは見られませんでした。

完全なエラー (編集):

ワーカーログとは異なるもの:

scala cassandra apache-spark spark-cassandra-connector

2015-08-31T06:17:10.667

0 投票する

1 に答える

114 参照

scala - 動的リスト内のエスケープ文字

ケースクラスの作成に使用される動的リスト内の文字をエスケープしたいと思います。

次のエラーが表示されます。

アイデアはありますか？

scala apache-spark spark-cassandra-connector

2015-09-03T06:21:42.853

0 投票する

4 に答える

1879 参照

cassandra - ある cassandra クラスターから別の cassandra クラスターに列ファミリーをコピーする方法は?

ある cassandra クラスターから別の cassandra クラスターに列ファミリーをコピーする方法は?

シナリオ：

ホストの IP (ソースクラスターとターゲットクラスターの両方)、ポート、key_space 名、および column_family 名しかありません。
既にターゲットクラスターにメタデータを作成しています (データのみをコピーする必要があります)。
最も優先的には、spark-cassandra コネクタ JAVA API を使用して、これを単一/複数の Spark ジョブ (中間で DataFrame を作成してから保存する) で実行したいと考えています。
datastax の cassandra-java ドライバーを使用して優先的にモデレートします。
cassandra-jdbc ドライバーと spark-cassandra コネクター JAVA API を使用することを優先しません。

事前に感謝します。

cassandra apache-spark apache-spark-sql spark-cassandra-connector

2015-09-06T19:03:55.413

0 投票する

2 に答える

10104 参照

scala - Spark Streaming を使用した Cassandra からの読み取り

Spark Streaming を使用して Cassandra から読み取るときに問題が発生します。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/8_streaming.md#reading-from-cassandra-from-the-streamingcontext

上記のリンクのように、私は使用します

カサンドラからデータを選択しますが、スパークストリーミングには1回のクエリしかないようですが、間隔10秒を使用してクエリを続行したいです。

私のコードは次のとおりです。あなたの応答を願っています。

ありがとう！

}

scala spark-streaming spark-cassandra-connector

2015-09-08T07:22:47.373

0 投票する

1 に答える

191 参照

scala - カスタム集計 OperationTimedOut の実行に失敗しました: エラー ={}、last_host=127.0.0.1

inにenable_user_defined_functions設定して apache-cassandra-2.2.1 を実行しています。この記事に基づいて、カスタム集計を次のように定義しました。truecassandra.yml

CQLSH コンソールからこれを呼び出すと、タイムアウトが表示されます。

他のクエリを正常に実行できます。scala からクエリを実行することもできます (ただし、完全な結果セットは得られません)。

scala stored-procedures cassandra cql spark-cassandra-connector

2015-09-14T14:38:05.057

1 2 3 4 5 6 7 8 9 10

問題タブ [spark-cassandra-connector]

Reference