r - 因子水準の不要な値を NA に置き換えます

Question

空白の欠損値と NA の両方を含む大きなデータフレームがあります。summary(factor(df$col)) を実行すると、次のような結果が得られます

( の後の空白に注意してください50000。)
とsum(is.na(df$col))はの数と同じ 12476 ですNAが、空白と s の合計にしたいと思いNAます。 And then
try を実行して空白のレベルを作成しようとしましたが、が生成されたと表示されますが、出力は同じです。因子レベルに基づいて NA を作成する方法を知っている人、または欠落している値を置き換えるためのより良い解決策を知っている人はいますか? 問題は、空白が複数の空白文字であるため、に変換されなかった可能性があると思いますが、それを確認する方法がわかりません。
levels(df$col) <- c("A", "B", "Blank", "C")
df$col <- factor(df$col, exclude="Blank")NANA

score 2 · Accepted Answer

これを試して：

df <- data.frame(a=11:18, col=c("C", "", "A", NA, "A", "", "C", NA))
levels(df$col) # ""  "A" "C"
sum(is.na(df$col)) # 2

df$col <- factor(df$col, levels=LETTERS[1:3])
levels(df$col) # "A" "B" "C"
sum(is.na(df$col)) # 4

新しいレベルには空白（ ""）が含まれていないため、すべての空白はNAになります。

r - 因子水準の不要な値を NA に置き換えます

1 に答える 1

Related

Reference