問題タブ [spark-cassandra-connector]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
452 参照

cassandra - spark-cassandra-connector のパフォーマンス: エグゼキューターがアイドル状態のようです

40 ノードのクラスター (33 の spark エグゼキューター/5 ノードの cassandra) では、spark-streaming を使用して、1 分あたり約 20 000 を (とりわけ) cassandra テーブル (を使用.saveToCassandra) に挿入しています。得られる結果は次のとおりです。

ここに画像の説明を入力

私が物事を正しく理解していれば、エグゼキュータとエグゼキュータは 75% の時間アイドル状態S3であり、ステージが終了するのを防ぎます... そのようなリソースの無駄です! そして、パフォーマンスの低下。S14S19

私のSparkContextのconfオプションは次のとおりです。

この動作は正常ですか?そうでない場合は、上記の設定を調整して回避する必要がありますか? 問題は spark-cassandra-connector の書き込みに起因するものですか、それとも別のものですか?

0 投票する
2 に答える
2047 参照

scala - Spark + Cassandra コネクタが LocalNodeFirstLoadBalancingPolicy.close() で失敗する

cassandra を scala で Spark に接続しようとしていますが、いくつかの問題に直面しています。使用されているバージョンは次のとおりです。

私が従った手順は次のとおりです。 - Cassandra をデフォルト設定でダウンロードし、bin/cassandra -f で起動しました。Cassandra は正常に起動し、127.0.0.1 をリッスンします。spark キースペースの try テーブルにいくつかのモック データを追加しました。- Spark をダウンロードし、sbin/start-master.sh を介してマスターを起動しました。localhost:8888 で、マスターが正常に動作していることを確認できます。次の build.sbt を作成しました。

  • 次の Main を書きました。

    /li>
  • 次に、プログラムを実行します。

これは、「spark.cassandra.connector.host」=「spark://127.0.0.1:7077」で取得したスタック トレースです。

このパラメーターを local[*] に変更すると、次のスタック トレースが得られます。

問題の原因はどこにありますか?

0 投票する
0 に答える
380 参照

java - cassandra spark コネクタ (java) を使用して、spark ストリーミングから Cassandra に大量のメッセージをプッシュする際の問題

私は大量の json メッセージ (それぞれ約 2KB) を、カフカからスパーク ストリーミングに来るカサンドラにプッシュしようとしています。

シミュレータ---->カフカ---->SparkStreaming--->カサンドラ。

これらはそれぞれ、30 GB の RAM と 8 コア プロセッサを備えた個別の ec2 インスタンスで、スタンドアロンの単一ノード セットアップとして実行されています。

シミュレーターから約 500 万件のメッセージをプッシュしようとすると、約 10 万件のメッセージの後、cassandra はメッセージの挿入を停止し、spark ストリーミング ジョブはバッチを作成し続けます (spark ストリーミング Web UI に見られるように)。ログも確認しましたが、問題は見つかりませんでした。

また、cassandra に書き込むためのコードでスパーク コネクタを使用している方法がわかりません。

以下のコードを参照してください。

WordCount.java

以下の主要な依存関係を持つデフォルトの cassandra.yml を使用しています。

  • スパーク カサンドラ コネクタ_2.10 - 1.4.0-M3
  • スパーク-cassandra-connector-java_2.10 - 1.4.0-M3
  • cassandra-driver-core - 2.1.7.1
  • スパーク ストリーミング kafka_2.10 - 1.4.1
  • スパークストリーミング_2.10 - 1.4.1
  • スパークコア_2.10 - 1.4.1

問題になる可能性のあるものを提案してください。

nodetool info と nodetool tpstats の出力は次のとおりです。

ノードツール情報

nodetool tpstat

0 投票する
2 に答える
1953 参照

python - spark-cassandra-connector_2.10:1.3.0-M2 jarを使用したpysparkでのpyspark_cassandraのインポートの問題

Spark 1.3.0 を使用しており、 Pysparkを使用してCassandraに接続したいと考えています。
>pyspark --packages com.datastax.spark:spark-cassandra-connector_2.10:1.3.0-M2

依存関係の jar を正常にダウンロードして Pyspark ターミナルに入ることが示されていますが、インポートを行うことができません。

私も試してみました


また、 を使用して組み立てられた jar を使用し--jars optionます。まだ同じ。同じことが、scala を使用する spark-shell でもうまく機能します。私はpythonが初めてです。何か不足していますか?

0 投票する
2 に答える
669 参照

apache-spark - カサンドラの行を更新すると、カサンドラがスパークします

私はspark cassandraコネクタ1.2.3でspark 1.2を使用しています.テーブルの一部の行を更新しようとしています:

例:

「e」のnullを含む行の数を数え、「b」の値でそれらを置き換えます

これは cqlsh でチェックインすると機能しますが、spark cassandra で同じ行を要求すると値 null が返されます。

これは spark cassandra コネクタのバグですか? ご協力いただきありがとうございます。

0 投票する
1 に答える
676 参照

cassandra - Spark コネクタの読み込みと sstableloader のパフォーマンス

HDFS からデータを取得し、そのデータをフラット ファイルに変換して Cassandra にロードする Spark ジョブがあります。

Cassandra テーブルは基本的に 3 列ですが、最後の 2 つはマップ コレクションであるため、「複雑な」データ構造です。

現在、COPY コマンドを使用すると、約 3,000 行/秒の読み込みが行われますが、約 5,000 万件のレコードを読み込む必要があるため、非常に低速です。

CSV ファイルを sstables に変換できるようですが、マップ コレクションやリストを含む例が見当たりません。

Spark コネクタを cassandra に使用して、マップ コレクションとリストを含むデータをロードし、COPY コマンドだけよりも優れたパフォーマンスを得ることができますか?

0 投票する
1 に答える
676 参照

cassandra - Zeppelin spark RDD コマンドは失敗するが、spark-shell では機能する

以下を実行するスタンドアロンの単一ノード「クラスター」をセットアップしました。

  • カサンドラ 2.2.2
  • スパーク 1.5.1
  • リスト項目
  • Spark-Cassandra-Connector 1.5.0-M2 用にコンパイルされたファット jar
  • 以下でコンパイルされた Zeppelin 0.6 スナップショットのコンパイル: mvn -Pspark-1.5 -Dspark.version=1.5.1 -Dhadoop.version=2.6.0 -Phadoop-2.4 -DskipTests クリーン パッケージ

カサンドラからデータを取得するスパークシェルで完全に正常に動作します

Zeppelin-env.sh を次のように変更しました。

次に、ノートブックに段落を追加し始め、最初に以下をインポートします。

これらすべてが必要かどうかはわかりません。この段落は正常に実行されます。

次に、次のことを行います。

これは正常に実行され、次のように返されます。

次に、次の段落 - 次の 2 つのステートメントが実行されます - 最初のステートメントは成功し、2 番目のステートメントは失敗します。

結果:

最初の呼び出しが失敗するのはなぜですか。sc.fromTextFile などの呼び出しも失敗します。

以下も機能します。

しかし、これはしません:

これは私を狂わせているので、助けてください。特にスパークシェルは機能しますが、これは機能しないか、少なくとも部分的に壊れているように見えます。

ありがとう