問題タブ [spark-cassandra-connector]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra - spark-cassandra-connector のパフォーマンス: エグゼキューターがアイドル状態のようです
40 ノードのクラスター (33 の spark エグゼキューター/5 ノードの cassandra) では、spark-streaming を使用して、1 分あたり約 20 000 を (とりわけ) cassandra テーブル (を使用.saveToCassandra
) に挿入しています。得られる結果は次のとおりです。
私が物事を正しく理解していれば、エグゼキュータとエグゼキュータは 75% の時間アイドル状態S3
であり、ステージが終了するのを防ぎます... そのようなリソースの無駄です! そして、パフォーマンスの低下。S14
S19
私のSparkContextのconfオプションは次のとおりです。
この動作は正常ですか?そうでない場合は、上記の設定を調整して回避する必要がありますか? 問題は spark-cassandra-connector の書き込みに起因するものですか、それとも別のものですか?
scala - Spark + Cassandra コネクタが LocalNodeFirstLoadBalancingPolicy.close() で失敗する
cassandra を scala で Spark に接続しようとしていますが、いくつかの問題に直面しています。使用されているバージョンは次のとおりです。
私が従った手順は次のとおりです。 - Cassandra をデフォルト設定でダウンロードし、bin/cassandra -f で起動しました。Cassandra は正常に起動し、127.0.0.1 をリッスンします。spark キースペースの try テーブルにいくつかのモック データを追加しました。- Spark をダウンロードし、sbin/start-master.sh を介してマスターを起動しました。localhost:8888 で、マスターが正常に動作していることを確認できます。次の build.sbt を作成しました。
次の Main を書きました。
/li>次に、プログラムを実行します。
これは、「spark.cassandra.connector.host」=「spark://127.0.0.1:7077」で取得したスタック トレースです。
このパラメーターを local[*] に変更すると、次のスタック トレースが得られます。
問題の原因はどこにありますか?
java - cassandra spark コネクタ (java) を使用して、spark ストリーミングから Cassandra に大量のメッセージをプッシュする際の問題
私は大量の json メッセージ (それぞれ約 2KB) を、カフカからスパーク ストリーミングに来るカサンドラにプッシュしようとしています。
シミュレータ---->カフカ---->SparkStreaming--->カサンドラ。
これらはそれぞれ、30 GB の RAM と 8 コア プロセッサを備えた個別の ec2 インスタンスで、スタンドアロンの単一ノード セットアップとして実行されています。
シミュレーターから約 500 万件のメッセージをプッシュしようとすると、約 10 万件のメッセージの後、cassandra はメッセージの挿入を停止し、spark ストリーミング ジョブはバッチを作成し続けます (spark ストリーミング Web UI に見られるように)。ログも確認しましたが、問題は見つかりませんでした。
また、cassandra に書き込むためのコードでスパーク コネクタを使用している方法がわかりません。
以下のコードを参照してください。
WordCount.java
以下の主要な依存関係を持つデフォルトの cassandra.yml を使用しています。
- スパーク カサンドラ コネクタ_2.10 - 1.4.0-M3
- スパーク-cassandra-connector-java_2.10 - 1.4.0-M3
- cassandra-driver-core - 2.1.7.1
- スパーク ストリーミング kafka_2.10 - 1.4.1
- スパークストリーミング_2.10 - 1.4.1
- スパークコア_2.10 - 1.4.1
問題になる可能性のあるものを提案してください。
nodetool info と nodetool tpstats の出力は次のとおりです。
python - spark-cassandra-connector_2.10:1.3.0-M2 jarを使用したpysparkでのpyspark_cassandraのインポートの問題
Spark 1.3.0 を使用しており、 Pysparkを使用してCassandraに接続したいと考えています。
>pyspark --packages com.datastax.spark:spark-cassandra-connector_2.10:1.3.0-M2
依存関係の jar を正常にダウンロードして Pyspark ターミナルに入ることが示されていますが、インポートを行うことができません。
私も試してみました
また、 を使用して組み立てられた jar を使用し--jars option
ます。まだ同じ。同じことが、scala を使用する spark-shell でもうまく機能します。私はpythonが初めてです。何か不足していますか?
apache-spark - カサンドラの行を更新すると、カサンドラがスパークします
私はspark cassandraコネクタ1.2.3でspark 1.2を使用しています.テーブルの一部の行を更新しようとしています:
例:
「e」のnullを含む行の数を数え、「b」の値でそれらを置き換えます
これは cqlsh でチェックインすると機能しますが、spark cassandra で同じ行を要求すると値 null が返されます。
これは spark cassandra コネクタのバグですか? ご協力いただきありがとうございます。
cassandra - Spark コネクタの読み込みと sstableloader のパフォーマンス
HDFS からデータを取得し、そのデータをフラット ファイルに変換して Cassandra にロードする Spark ジョブがあります。
Cassandra テーブルは基本的に 3 列ですが、最後の 2 つはマップ コレクションであるため、「複雑な」データ構造です。
現在、COPY コマンドを使用すると、約 3,000 行/秒の読み込みが行われますが、約 5,000 万件のレコードを読み込む必要があるため、非常に低速です。
CSV ファイルを sstables に変換できるようですが、マップ コレクションやリストを含む例が見当たりません。
Spark コネクタを cassandra に使用して、マップ コレクションとリストを含むデータをロードし、COPY コマンドだけよりも優れたパフォーマンスを得ることができますか?
cassandra - Zeppelin spark RDD コマンドは失敗するが、spark-shell では機能する
以下を実行するスタンドアロンの単一ノード「クラスター」をセットアップしました。
- カサンドラ 2.2.2
- スパーク 1.5.1
- リスト項目
- Spark-Cassandra-Connector 1.5.0-M2 用にコンパイルされたファット jar
- 以下でコンパイルされた Zeppelin 0.6 スナップショットのコンパイル: mvn -Pspark-1.5 -Dspark.version=1.5.1 -Dhadoop.version=2.6.0 -Phadoop-2.4 -DskipTests クリーン パッケージ
カサンドラからデータを取得するスパークシェルで完全に正常に動作します
Zeppelin-env.sh を次のように変更しました。
次に、ノートブックに段落を追加し始め、最初に以下をインポートします。
これらすべてが必要かどうかはわかりません。この段落は正常に実行されます。
次に、次のことを行います。
これは正常に実行され、次のように返されます。
次に、次の段落 - 次の 2 つのステートメントが実行されます - 最初のステートメントは成功し、2 番目のステートメントは失敗します。
結果:
最初の呼び出しが失敗するのはなぜですか。sc.fromTextFile などの呼び出しも失敗します。
以下も機能します。
しかし、これはしません:
これは私を狂わせているので、助けてください。特にスパークシェルは機能しますが、これは機能しないか、少なくとも部分的に壊れているように見えます。
ありがとう