私は、Spark と Scala をまったく初めて使用し、Databricks でデータ セットを操作しようとしています。
csv ファイルをデータ フレームとして読み込みました。ここで、各列の null 値の割合を確認したいと思います。後で、null 値の割合に応じて、null 値を置き換えるか、列を削除したいと考えています。
R には null 値を分析できるパッケージ (MICE パッケージなど) がいくつかあると思いますが、Spark & Scala では同様のものを見つけることができません。
「null」値でデータ フレームをフィルタリングしようとしましたが、うまくいかないようです。以下のコードは、null でないキャビンを返すだけです。== を != で交換しても役に立ちません。
train.show()
val train = sqlContext.sql("SELECT * FROM titanic_test")
val filtered = train.filter("Cabin==null")
filtered.show()
上記の問題を解決する方法を知っているか、助けてくれるパッケージを知っている人はいますか?手動でフィルタリングできますか?