問題タブ [databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
65 参照

scala - null 値の検索と代入: Spark + Scala でデータを前処理するためのパッケージはありますか?

私は、Spark と Scala をまったく初めて使用し、Databricks でデータ セットを操作しようとしています。

csv ファイルをデータ フレームとして読み込みました。ここで、各列の null 値の割合を確認したいと思います。後で、null 値の割合に応じて、null 値を置き換えるか、列を削除したいと考えています。

R には null 値を分析できるパッケージ (MICE パッケージなど) がいくつかあると思いますが、Spark & Scala では同様のものを見つけることができません。

「null」値でデータ フレームをフィルタリングしようとしましたが、うまくいかないようです。以下のコードは、null でないキャビンを返すだけです。== を != で交換しても役に立ちません。

上記の問題を解決する方法を知っているか、助けてくれるパッケージを知っている人はいますか?手動でフィルタリングできますか?

この画像は、フィルタリングされる前のデータセットを示しています

この画像は、フィルタリングが機能していないことを示しています

0 投票する
1 に答える
2658 参照

scala - EMR の pyspark は redshift データソースに接続します

EMR で pyspark を redshift データソースに接続しようとしましたが、うまくいきませんでした。これが私が試したことです:

spark は EMR の /usr/lib/spark にあり、jar ファイルは /usr/lib/spark/jars にあるためです。

1.私が試した最初のアプローチは、依存関係をダウンロードして/usr/lib/spark/jarsに入れました

pyspark の提供を開始

jarファイルでpysparkを起動した後

エラーメッセージは次のように返されました:

  1. 別のアプローチは、パッケージ名でpysparkを開始することです

    export SPARK_HOME='/usr/lib/spark'

    $SPARK_HOME/bin/pyspark --packages databricks:spark-redshift:0.4.0-hadoop2,com.databricks:spark-avro_2.11:3.2.0

これにより、上記と同じエラーが発生します。同じ問題に遭遇し、それにアプローチする方法を知っている人はいますか?

前もって感謝します。