問題タブ [spark-cassandra-connector]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - スパークで単一の行から複数の行を生成する
次のデータモデルを使用してcassandraにいくつかのデータがあります。
今、私はこのデータを何かに変換したい:
現在、開始日と終了日を取り、transaction_date のタプル (Date 部分のみ) と、トランザクションがアクティブだった時間の値が 1 の 24 サイズの配列を返し、元の RDD を transaction_date を使用して PairRDD にマップする関数を作成しました。 (日付部分のみ) をキーとして、配列を値として。この後、キーに対してreduceを実行し、配列の個々の要素をすべて追加して、目的の出力を取得します。
問題は、トランザクションが深夜に開始され、真夜中過ぎに完了する場合があるため、そのような場合、関数から 2 行を返して、トランザクションごとに返された RDD で 2 行を取得することです。
Spark バージョン: 1.2.2
使用される API は Scala
Spark Cassandra コネクタ バージョン 1.2.2 です。
elasticsearch - Spark-Cassandra 対 Spark-Elasticsearch
私はかなり前から Elasticsearch を使用しており、Cassandra を使用した経験はほとんどありません。
現在、spark を使用してデータを処理したいプロジェクトがありますが、データをロードするためのデータストアとして Cassandra と Elasticsearch のどちらを使用するかを決定する必要があります。
コネクタに関しては、Cassandra と Elasticsearch の両方にデータをロードするための優れたコネクタが備わっているため、決定要因にはなりません。
決定する勝敗の要因は、Spark 内でデータをどれだけ速くロードできるかです。私のデータはほぼ 20 テラバイトです。
JMeter を使用していくつかのテストを実行し、結果を自分で確認できることは知っていますが、両方のシステムに精通している人に尋ねたいと思います。
ありがとう
scala - Sparkシェルでカスタムケースクラスを使用するとシリアル化エラーが発生するのはなぜですか?
私の人生では、なぜこれがシリアル化できないのか理解できません。私はspark-shell(貼り付けモード)で以下を実行しています。Spark 1.3.1、Cassandra 2.1.6、Scala 2.10 で実行しています
私はこれでspark-shellを始めました:
-Dsun.io.serialization.extendedDebugInfo=true プロパティを含めても違いは見られませんでした。
完全なエラー (編集):
ワーカーログとは異なるもの:
scala - 動的リスト内のエスケープ文字
ケース クラスの作成に使用される動的リスト内の文字をエスケープしたいと思います。
次のエラーが表示されます。
アイデアはありますか?
cassandra - ある cassandra クラスターから別の cassandra クラスターに列ファミリーをコピーする方法は?
ある cassandra クラスターから別の cassandra クラスターに列ファミリーをコピーする方法は?
シナリオ:
- ホストの IP (ソース クラスターとターゲット クラスターの両方)、ポート、key_space 名、および column_family 名しかありません。
- 既にターゲット クラスターにメタデータを作成しています (データのみをコピーする必要があります)。
- 最も優先的には、spark-cassandra コネクタ JAVA API を使用して、これを単一/複数の Spark ジョブ (中間で DataFrame を作成してから保存する) で実行したいと考えています。
- datastax の cassandra-java ドライバーを使用して優先的にモデレートします。
- cassandra-jdbc ドライバーと spark-cassandra コネクター JAVA API を使用することを優先しません。
事前に感謝します。
scala - Spark Streaming を使用した Cassandra からの読み取り
Spark Streaming を使用して Cassandra から読み取るときに問題が発生します。
上記のリンクのように、私は使用します
カサンドラからデータを選択しますが、スパークストリーミングには1回のクエリしかないようですが、間隔10秒を使用してクエリを続行したいです。
私のコードは次のとおりです。あなたの応答を願っています。
ありがとう!
}
scala - カスタム集計 OperationTimedOut の実行に失敗しました: エラー ={}、last_host=127.0.0.1
inにenable_user_defined_functions
設定して apache-cassandra-2.2.1 を実行しています。この記事に基づいて、カスタム集計を次のように定義しました。true
cassandra.yml
CQLSH コンソールからこれを呼び出すと、タイムアウトが表示されます。
他のクエリを正常に実行できます。scala からクエリを実行することもできます (ただし、完全な結果セットは得られません)。