問題タブ [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - null 値の検索と代入: Spark + Scala でデータを前処理するためのパッケージはありますか?
私は、Spark と Scala をまったく初めて使用し、Databricks でデータ セットを操作しようとしています。
csv ファイルをデータ フレームとして読み込みました。ここで、各列の null 値の割合を確認したいと思います。後で、null 値の割合に応じて、null 値を置き換えるか、列を削除したいと考えています。
R には null 値を分析できるパッケージ (MICE パッケージなど) がいくつかあると思いますが、Spark & Scala では同様のものを見つけることができません。
「null」値でデータ フレームをフィルタリングしようとしましたが、うまくいかないようです。以下のコードは、null でないキャビンを返すだけです。== を != で交換しても役に立ちません。
上記の問題を解決する方法を知っているか、助けてくれるパッケージを知っている人はいますか?手動でフィルタリングできますか?
scala - EMR の pyspark は redshift データソースに接続します
EMR で pyspark を redshift データソースに接続しようとしましたが、うまくいきませんでした。これが私が試したことです:
spark は EMR の /usr/lib/spark にあり、jar ファイルは /usr/lib/spark/jars にあるためです。
1.私が試した最初のアプローチは、依存関係をダウンロードして/usr/lib/spark/jarsに入れました
pyspark の提供を開始
jarファイルでpysparkを起動した後
エラーメッセージは次のように返されました:
別のアプローチは、パッケージ名でpysparkを開始することです
export SPARK_HOME='/usr/lib/spark'
$SPARK_HOME/bin/pyspark --packages databricks:spark-redshift:0.4.0-hadoop2,com.databricks:spark-avro_2.11:3.2.0
これにより、上記と同じエラーが発生します。同じ問題に遭遇し、それにアプローチする方法を知っている人はいますか?
前もって感謝します。