問題タブ [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
maven - Spark maven の依存関係が sprint-boot アプリケーションを破壊する
Swing GUI を使用したスプリング ブート アプリケーションがあります。それはただ働く!しかし、spark 2.0依存関係をpom.xmlファイルに追加するとすぐに、起動時に次のエラー メッセージが表示され、起動しません!
これは私が追加する依存関係です:
apache-spark - Apache Spark と Apache Spark 2 の比較
Apache Spark と比較して、Apache Spark2 がもたらす改善点は何ですか?
- アーキテクチャの観点から
- アプリケーションの観点から
- 以上
apache-spark - Spark SQL - JSON スキーマを使用した JSON の読み取り (スキーマの公式標準)
標準に従って定義された既存の JSON スキーマ (ファイル) を使用することは可能ですか?
http://json-schema.org/latest/json-schema-core.html、
JSON データフレームのスキーマを明示的に宣言するには? もしそうなら、例はありますか?JSON イベントを定義する多くの json スキーマ ファイルがありますが、DF がこれらを再利用できるようにするとよいでしょうか?
乾杯
apache-spark - extraOptimizations を使用した Spark SQL AST の変換
ユーザー入力として SQL 文字列を取得し、実行前に変換したいと考えています。特に、最上位のプロジェクション (select 句) を変更して、クエリによって取得される追加の列を挿入したいと考えています。
を使用して Catalyst に接続することで、これを実現したいと考えていましたsparkSession.experimental.extraOptimizations
。私が試みていることは、厳密に言えば最適化 (変換によって SQL ステートメントのセマンティクスが変更される) ではないことはわかっていますが、それでも API は適しているようです。ただし、私の変換はクエリ実行プログラムによって無視されているようです。
これは、私が抱えている問題を説明するための最小限の例です。最初に行ケース クラスを定義します。
次に、プロジェクションを単純に破棄する最適化ルールを定義します。
データセットを作成し、最適化を登録して、SQL クエリを実行します。
出力は次のとおりです。
結果は、変換が適用されていない元の SQL ステートメントの結果と同じであることがわかります。それでも、論理的および物理的な計画を印刷するとき、投影は実際に削除されています。また、(デバッグ ログ出力を通じて) 変換が実際に呼び出されていることを確認しました。
ここで何が起こっているかについて何か提案はありますか? オプティマイザーは、セマンティクスを変更する「最適化」を単純に無視するのでしょうか?
最適化の使用が適切でない場合、誰か代替案を提案できますか? 私が実際にやりたいことは、入力 SQL ステートメントを解析して変換し、変換された AST を実行のために Spark に渡すことだけです。しかし、私が見る限り、これを行うための API は Sparksql
パッケージ専用です。リフレクションを使用することは可能かもしれませんが、それは避けたいと思います。
どんなポインタでも大歓迎です。
scala - データセットからの RDD により、Spark 2.x でシリアル化エラーが発生する
Databricks ノートブックを使用してデータセットから作成した RDD があります。
そこから具体的な値を取得しようとすると、シリアル化エラー メッセージが表示されて失敗します。
これが私のデータを取得する場所です(PageCountはCaseクラスです):
それから私がするとき:
次の例外が発生します。
データセットで同じ試みが機能しますが:
編集 :
ここに完全なスタックトレースがあります
apache-spark - JDBCからsparkデータフレームを作成するときにSQL方言を指定する方法は?
Spark でカスタム JDBC を介してデータを読み取る際に問題が発生しています。jdbc url を介して推論された sql 方言をオーバーライドするにはどうすればよいですか?
問題のデータベースは、mysql バリアントを実行する vitess ( https://github.com/youtube/vitess ) であるため、mysql の方言を指定したいと考えています。jdbc URL は jdbc:vitess/ で始まります
それ以外の場合、DataFrameReader は """ を引用識別子として使用するデフォルトの方言を推測しています。
テーブルから「id」、「col2」、「col3」、「etc」を選択
代わりに、列の値の代わりに文字列表現を選択します
テーブルからid、col2、col3などを選択