問題タブ [databricks]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4107 問題

0 投票する

0 に答える

65 参照

scala - null 値の検索と代入: Spark + Scala でデータを前処理するためのパッケージはありますか?

私は、Spark と Scala をまったく初めて使用し、Databricks でデータセットを操作しようとしています。

csv ファイルをデータフレームとして読み込みました。ここで、各列の null 値の割合を確認したいと思います。後で、null 値の割合に応じて、null 値を置き換えるか、列を削除したいと考えています。

R には null 値を分析できるパッケージ (MICE パッケージなど) がいくつかあると思いますが、Spark & Scala では同様のものを見つけることができません。

「null」値でデータフレームをフィルタリングしようとしましたが、うまくいかないようです。以下のコードは、null でないキャビンを返すだけです。== を != で交換しても役に立ちません。

上記の問題を解決する方法を知っているか、助けてくれるパッケージを知っている人はいますか?手動でフィルタリングできますか?

この画像は、フィルタリングされる前のデータセットを示しています

この画像は、フィルタリングが機能していないことを示しています

2017-03-13T18:45:55.683

0 投票する

1 に答える

2658 参照

scala - EMR の pyspark は redshift データソースに接続します

EMR で pyspark を redshift データソースに接続しようとしましたが、うまくいきませんでした。これが私が試したことです：

spark は EMR の /usr/lib/spark にあり、jar ファイルは /usr/lib/spark/jars にあるためです。

1.私が試した最初のアプローチは、依存関係をダウンロードして/usr/lib/spark/jarsに入れました

pyspark の提供を開始

jarファイルでpysparkを起動した後

エラーメッセージは次のように返されました：

別のアプローチは、パッケージ名でpysparkを開始することです

export SPARK_HOME='/usr/lib/spark'

$SPARK_HOME/bin/pyspark --packages databricks:spark-redshift:0.4.0-hadoop2,com.databricks:spark-avro_2.11:3.2.0

これにより、上記と同じエラーが発生します。同じ問題に遭遇し、それにアプローチする方法を知っている人はいますか?

前もって感謝します。

scala apache-spark pyspark amazon-redshift databricks

2017-03-21T20:13:52.943

1 2 3 4 5 6 7 8 9 10

問題タブ [databricks]

scala - null 値の検索と代入: Spark + Scala でデータを前処理するためのパッケージはありますか?

scala - EMR の pyspark は redshift データソースに接続します

Reference