“databricks”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

43 参照

python - Spark DataFrame で 2 番目以降の列を選択すると「null」を取得する

たとえば、次の XML ファイルがあります。

DataBricks XML パッケージを介して Spark にロードすると、すべてが適切にロードされ、正しく表示されます。firstまたはを選択しようとするとfirst.a、正しく結果が得られます。

しかし、secondまたはsecond.b、またはthirdまたはを取得しようとするとthird.c、が取得されますnull。

直接クエリ、選択機能、すべてを試してみましたが、何が問題なのかわかりません。行タグはルートです。何か案は？

更新: どうやら、spark-xml パッケージのバグだったようです。ありがとう。

2016-11-03T11:21:15.787

0 投票する

1 に答える

800 参照

hadoop - spark から Elastic Search への rdd の書き込みが失敗する

バージョンの Elastic Cloud の Elastic Search にペア rdd を書き込もうとしてい2.4.0ます。プラグインを使用elasticsearch-spark_2.10-2.4.0して ES に書き込みます。ESへの書き込みに使用しているコードは次のとおりです。

私が得るエラーは次のとおりです。

興味深いのは、rdd2 の最初のいくつかの要素を取得し、それから新しい rdd を作成して ES に書き込むと、これが機能することです。問題なく機能します。

Elastic Cloud (Elastic Search のクラウドサービス) と Databricks (Apache Spark のクラウドサービス) を使用しています。Spark の ES への書き込みのスループットに ES が追いついていないのでしょうか? Elastic Cloud のサイズを 2GB RAM から 8GB RAM に増やしました。

上記で使用した推奨構成はありes_write_confますか? 他confsに考えられることはありますか？ES 5.0 への更新は役に立ちますか?

どんな助けでも大歓迎です。ここ数日間、これに苦労しています。ありがとうございました。

hadoop elasticsearch apache-spark databricks

2016-11-11T18:38:38.550

0 投票する

2 に答える

5881 参照

apache-spark - Pyspark は csv を読み取ります - NameError: name 'spark' が定義されていません

spark セッションを呼び出して、それを使用して csv ファイルを開くために、databricks で次のコードを実行しようとしています。

そして、次のエラーが表示されます。

何が間違っているのでしょうか？

私も実行しようとしました：

しかし、次のような応答がありました。

それが役立つ場合は、次の例に従ってみます (17:30 から見るとよくわかります): https://www.youtube.com/watch?v=K14plpZgy_c&list=PLIxzgeMkSrQ-2Uizm4l0HjNSSy2NxgqjX

apache-spark pyspark databricks

2016-11-23T12:24:16.983

0 投票する

1 に答える

4931 参照

python - UDF での Pyspark エラー: py4j.Py4JException: Method getnewargs([]) does not exist エラー

次のエラーを解決しようとしています (databricks プラットフォームと spark 2.0 を使用しています)

このコードを実行すると、次のエラーが表示されます。

py4j.Py4JException: メソッドgetnewargs ([]) が存在しません ==> エラーは、udf を定義しようとしたときにのみ発生します。

python apache-spark pyspark databricks

2016-11-28T16:13:18.030

0 投票する

2 に答える

1909 参照

apache-spark - jdbcを使用してRedshiftテーブルからSpark 2.0.0を切り捨てる

こんにちは、テーブルを切り捨てたい Redshift で Spark SQL(2.0.0) を使用しています。私はこのspark- redshift パッケージを使用しています & テーブルを切り捨てる方法を知りたいです.誰でもこの例を共有できますか??

apache-spark apache-spark-sql amazon-redshift databricks

2016-12-05T11:09:30.220

0 投票する

0 に答える

96 参照

python - 単純なテーブルを読み取り、行全体を複製し、新しいテーブルとして保存する方法は?

DataBricks と Apache Spark は初めてです。ノートブックに Python を使用したいと考えています。

私はデータブリックを使用しており、作成したことを確認できます。

接続された python ベースのノートブック (test-notebook) と共にクラスター (test)
JSON ファイルからのテーブル (employee_info)
ノート。

私が持っているサンプルテーブルは、テストファイルとしてアップロードした JSON からのもので、以下のとおりです。

このテーブルをアップロードした場合、どうすればよいですか (ノートブックに Python を使用していると仮定します):

テーブルにアクセスする
行全体を複製する
重複した列を含むテーブルを新しいテーブルとして保存します

ありがとう。

python json databricks spark-notebook

2016-12-05T17:54:53.503

0 投票する

2 に答える

3115 参照

apache-spark-sql - ローカルファイルパスからテキストファイルを読み取れない - Spark CSV リーダー

Spark CSVリーダーを使用してcsvファイルを読み取ってDataFrameとして変換し、でジョブを実行してyarn-clientいます。ローカルモードで正常に動作しています。

でスパークジョブを送信していedge nodeます。

しかし、ファイルを HDFS ではなくローカルファイルパスに配置すると、ファイルが見つからないという例外が発生します。

コード：

も試しfile:///ましたが、それでも同じエラーが発生します。

エラーログ：

apache-spark-sql spark-csv databricks

2016-12-24T08:54:45.487

0 投票する

1 に答える

698 参照

scala - Spark with Scala: TupleValue の代わりに Cassandra に null のようなフィールド値を書き込む

私のコレクションの 1 つで、次のフィールドがあるとします。

Scala スクリプトを使用して、この特定のフィールドが空、null、存在しないなどのエントリを挿入したいとします。挿入する前に、エントリのフィールドを次のようにマップします。

Spark スクリプト (Databricks、Spark コネクタバージョン 1.6 から) を実行しようとすると、次のエラーが発生します。

Noneの代わりに使用するnullと、別のエラーが発生します。

Cassandraにはnullの正確な概念がないことは理解していますが、Cassandraのnodejsドライバーを使用するなど、他の環境からこれを行ったので、Cassandraにエントリを挿入するときに値を除外する方法があることは知っています. null予想される TupleValue またはユーザー定義型に挿入するときに、どのように値を強制することができますか?

scala apache-spark cassandra databricks

2016-12-27T14:06:47.357

問題タブ [databricks]

Reference