問題タブ [apache-spark-1.6]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark-sql - 2 つのデータフレームを結合するときに CassandraSourceRelation がシリアル化できない
spark-cassandra-connector 1.6.2 を使用してデータフレームをセットアップしました。カサンドラでいくつかの変換を実行しようとしています。Datastax エンタープライズ バージョンは 5.0.5 です。
これは例外ログです。spark が cassandra ソースを作成しているように見えますが、シリアル化できません。
シリーズ化することは可能ですか?count 操作は機能しているのに、collect 操作が機能しないのはなぜですか?
アップデート:
それに戻った後、Java では最初に Java Iterable を scala バッファに変換し、そこから scala Iterable -> Seq を作成したことがわかりました。それ以外の場合は機能しません。問題の原因に注意を向けてくれた Russel に感謝します。
hive - SparkSQL で Impala テーブルを読み取る
Lead .. over .. partition や Union などの関数を持つクエリを実行しようとしました。このクエリは、impala で実行しようとするとうまく機能しますが、Hive では失敗します。
このクエリを実行する Spark ジョブを作成する必要があります。SparkSQL でも同様に失敗しています。私の推測では、Spark 1.6 が内部で HiveQL を使用して上記のタスクを実行しているためです。
SparkSQL から impala テーブルを読み取る別の方法はありますか? Hive と両方で機能する基本的なクエリは、SprkSQL で正常に機能するためです。
実行しようとしているクエリの FYR:
エラーメッセージ:
scala - spark scala - 複数の行を 1 つにマージする
私はデータフレームを持っています
私はこのような出力を持っています
期待されるo/pを次のようにします。
助けてください
hive - SparkSQL JDBC ライターが「ロックを取得できません」というエラーで失敗する
SparkSQL JDBC Writer を使用して、ハイブ テーブルから SQLServer テーブルに 5,000 万行を挿入しようとしています。以下は、データを挿入するために使用しているコード行です。
mdf1.coalesce(4).write.mode(SaveMode.Append).jdbc(connectionString, "dbo.TEST_TABLE", connectionProperties)
以下のエラーで 1,000 万行を処理した後、spark ジョブが失敗する
java.sql.BatchUpdateException: SQL Server データベース エンジンのインスタンスは、現時点で LOCK リソースを取得できません。アクティブなユーザーが少なくなったら、ステートメントを再実行してください。データベース管理者に依頼して、このインスタンスのロックとメモリの構成を確認するか、実行時間の長いトランザクションを確認してください。
しかし、以下のコード行を使用すると、同じジョブが成功します。
mdf1.coalesce(1).write.mode(SaveMode.Append).jdbc(connectionString, "dbo.TEST_TABLE", connectionProperties)
パフォーマンスを最適化するために、SQLServer への 4 つの並列接続を開こうとしています。しかし、1000万行を処理した後、ジョブは「ロックを取得できません」というエラーで失敗し続けます。また、データフレームを数百万行(1000万未満)に制限すると、4つの並列接続でもジョブは成功します
SparkSQL を使用して膨大な量のデータを RDBMS にエクスポートできるかどうか、また SQL サーバー テーブルの構成を変更する必要があるかどうか、誰か教えてください。
前もって感謝します。