0

私は、Spark と Scala をまったく初めて使用し、Databricks でデータ セットを操作しようとしています。

csv ファイルをデータ フレームとして読み込みました。ここで、各列の null 値の割合を確認したいと思います。後で、null 値の割合に応じて、null 値を置き換えるか、列を削除したいと考えています。

R には null 値を分析できるパッケージ (MICE パッケージなど) がいくつかあると思いますが、Spark & Scala では同様のものを見つけることができません。

「null」値でデータ フレームをフィルタリングしようとしましたが、うまくいかないようです。以下のコードは、null でないキャビンを返すだけです。== を != で交換しても役に立ちません。

train.show()
val train = sqlContext.sql("SELECT * FROM titanic_test")
val filtered = train.filter("Cabin==null")
filtered.show()

上記の問題を解決する方法を知っているか、助けてくれるパッケージを知っている人はいますか?手動でフィルタリングできますか?

この画像は、フィルタリングされる前のデータセットを示しています

この画像は、フィルタリングが機能していないことを示しています

4

0 に答える 0