scala - null 値の検索と代入: Spark + Scala でデータを前処理するためのパッケージはありますか?

翻译自：https://stackoverflow.com/questions/42771179 2017-03-13T18:45:55.683

65 次

私は、Spark と Scala をまったく初めて使用し、Databricks でデータセットを操作しようとしています。

csv ファイルをデータフレームとして読み込みました。ここで、各列の null 値の割合を確認したいと思います。後で、null 値の割合に応じて、null 値を置き換えるか、列を削除したいと考えています。

R には null 値を分析できるパッケージ (MICE パッケージなど) がいくつかあると思いますが、Spark & Scala では同様のものを見つけることができません。

「null」値でデータフレームをフィルタリングしようとしましたが、うまくいかないようです。以下のコードは、null でないキャビンを返すだけです。== を != で交換しても役に立ちません。

train.show()
val train = sqlContext.sql("SELECT * FROM titanic_test")
val filtered = train.filter("Cabin==null")
filtered.show()

上記の問題を解決する方法を知っているか、助けてくれるパッケージを知っている人はいますか?手動でフィルタリングできますか?

0 に答える 0