問題タブ [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Spark DataFrame で 2 番目以降の列を選択すると「null」を取得する
たとえば、次の XML ファイルがあります。
DataBricks XML パッケージを介して Spark にロードすると、すべてが適切にロードされ、正しく表示されます。first
またはを選択しようとするとfirst.a
、正しく結果が得られます。
しかし、second
またはsecond.b
、またはthird
またはを取得しようとするとthird.c
、 が取得されますnull
。
直接クエリ、選択機能、すべてを試してみましたが、何が問題なのかわかりません。行タグはルートです。何か案は?
更新: どうやら、spark-xml パッケージのバグだったようです。ありがとう。
hadoop - spark から Elastic Search への rdd の書き込みが失敗する
バージョン の Elastic Cloud の Elastic Search にペア rdd を書き込もうとしてい2.4.0
ます。プラグインを使用elasticsearch-spark_2.10-2.4.0
して ES に書き込みます。ESへの書き込みに使用しているコードは次のとおりです。
私が得るエラーは次のとおりです。
興味深いのは、rdd2 の最初のいくつかの要素を取得し、それから新しい rdd を作成して ES に書き込むと、これが機能することです。問題なく機能します。
Elastic Cloud (Elastic Search のクラウド サービス) と Databricks (Apache Spark のクラウド サービス) を使用しています。Spark の ES への書き込みのスループットに ES が追いついていないのでしょうか? Elastic Cloud のサイズを 2GB RAM から 8GB RAM に増やしました。
上記で使用した推奨構成はありes_write_conf
ますか? 他confs
に考えられることはありますか?ES 5.0 への更新は役に立ちますか?
どんな助けでも大歓迎です。ここ数日間、これに苦労しています。ありがとうございました。
apache-spark - Pyspark は csv を読み取ります - NameError: name 'spark' が定義されていません
spark セッションを呼び出して、それを使用して csv ファイルを開くために、databricks で次のコードを実行しようとしています。
そして、次のエラーが表示されます。
何が間違っているのでしょうか?
私も実行しようとしました:
しかし、次のような応答がありました。
それが役立つ場合は、次の例に従ってみます (17:30 から見るとよくわかります): https://www.youtube.com/watch?v=K14plpZgy_c&list=PLIxzgeMkSrQ-2Uizm4l0HjNSSy2NxgqjX
python - UDF での Pyspark エラー: py4j.Py4JException: Method __getnewargs__([]) does not exist エラー
次のエラーを解決しようとしています (databricks プラットフォームと spark 2.0 を使用しています)
このコードを実行すると、次のエラーが表示されます。
py4j.Py4JException: メソッドgetnewargs ([]) が存在しません ==> エラーは、udf を定義しようとしたときにのみ発生します。
apache-spark - jdbcを使用してRedshiftテーブルからSpark 2.0.0を切り捨てる
こんにちは、テーブルを切り捨てたい Redshift で Spark SQL(2.0.0) を使用しています。私はこのspark- redshift パッケージを使用しています & テーブルを切り捨てる方法を知りたいです.誰でもこの例を共有できますか??
python - 単純なテーブルを読み取り、行全体を複製し、新しいテーブルとして保存する方法は?
DataBricks と Apache Spark は初めてです。ノートブックに Python を使用したいと考えています。
私はデータ ブリックを使用しており、作成したことを確認できます。
- 接続された python ベースのノートブック (test-notebook) と共にクラスター (test)
- JSON ファイルからのテーブル (employee_info)
- ノート。
私が持っているサンプル テーブルは、テスト ファイルとしてアップロードした JSON からのもので、以下のとおりです。
このテーブルをアップロードした場合、どうすればよいですか (ノートブックに Python を使用していると仮定します):
- テーブルにアクセスする
- 行全体を複製する
- 重複した列を含むテーブルを新しいテーブルとして保存します
ありがとう。
apache-spark-sql - ローカル ファイル パスからテキスト ファイルを読み取れない - Spark CSV リーダー
Spark CSVリーダーを使用してcsvファイルを読み取ってDataFrameとして変換し、でジョブを実行してyarn-client
います。ローカルモードで正常に動作しています。
でスパークジョブを送信していedge node
ます。
しかし、ファイルを HDFS ではなくローカル ファイル パスに配置すると、ファイルが見つからないという例外が発生します。
コード:
も試しfile:///
ましたが、それでも同じエラーが発生します。
エラーログ:
scala - Spark with Scala: TupleValue の代わりに Cassandra に null のようなフィールド値を書き込む
私のコレクションの 1 つで、次のフィールドがあるとします。
Scala スクリプトを使用して、この特定のフィールドが空、null、存在しないなどのエントリを挿入したいとします。挿入する前に、エントリのフィールドを次のようにマップします。
Spark スクリプト (Databricks、Spark コネクタ バージョン 1.6 から) を実行しようとすると、次のエラーが発生します。
None
の代わりに使用するnull
と、別のエラーが発生します。
Cassandraにはnullの正確な概念がないことは理解していますが、Cassandraのnodejsドライバーを使用するなど、他の環境からこれを行ったので、Cassandraにエントリを挿入するときに値を除外する方法があることは知っています. null
予想される TupleValue またはユーザー定義型に挿入するときに、どのように値を強制することができますか?