8

新しいデータセットの探索:多くの(すべての)変数を視覚化するための最も簡単で迅速な方法は何ですか?

理想的には、出力には、最小限のクラッターと最大限の情報でヒストグラムが隣り合って表示されます。この質問の鍵は、大きくて異なるデータセットを処理するための柔軟性と安定性です。私はRStudioを使用しており、通常、大きくて乱雑な調査データを処理します。

箱から出してHmiscここで非常にうまく機能する1つの例は次のとおりです。

library(ggplot2)
str(mpg)

library(Hmisc)
hist.data.frame(mpg)

残念ながら、他の場所でデータラベルの問題が発生しました(plot.new()のエラー:図の余白が大きすぎます)。また、より大きなデータセットでクラッシュし、mpgビニングを制御する方法がわかりませんでした。さらに、で柔軟なソリューションをお勧めしggplot2ます。私はRを学び始めたばかりで、商用ソフトウェアが提供する快適なソリューションに慣れていることに注意してください。

このトピックに関するその他の質問:

Rヒストグラム-変数が多すぎます

...?

4

1 に答える 1

12

3つの広いアプローチがあります:

  1. 次のようなパッケージからのコマンドhist.data.frame()
  2. 変数または同様のマクロ構造のループ
  3. 変数のスタックとファセットの使用

パッケージ

役立つ可能性のあるその他のコマンド:

library(plyr)
library(psych)
multi.hist(mpg) #error, not numeric
multi.hist(mpg[,sapply(mpg, is.numeric)])

または、おそらく、私が調べていないmulthistから。plotrixどちらも私が探していた柔軟性を提供していません。

ループ

Rの初心者として、誰もがループに近づかないようにアドバイスしてくれました。だから私はやったが、おそらくここで試してみる価値がある。どんな提案でも大歓迎です。おそらく、グラフを1つのファイルに結合する方法についてコメントすることができます。

スタッキング

私の最初の疑いは、変数のスタックが手に負えなくなるかもしれないということでした。ただし、妥当な変数のセットには最適な戦略である可能性があります。

私が思いついた1つの例は、melt関数を使用しています。

library(reshape2)
mpgid <- mutate(mpg, id=as.numeric(rownames(mpg)))
mpgstack <- melt(mpgid, id="id")
pp <- qplot(value, data=mpgstack) + facet_wrap(~variable, scales="free")
# pp + stat_bin(geom="text", aes(label=..count.., vjust=-1))
ggsave("mpg-histograms.pdf", pp, scale=2)

(ご覧のとおり、情報密度を高めるためにバーに値ラベルを付けようとしましたが、うまくいきませんでした。x軸のラベルも理想的とは言えません。)

ここで完璧な解決策はなく、万能のコマンドはありません。しかし、おそらく、新しいデータセットの探索を容易にするために近づくことができます。

于 2012-06-27T14:01:27.133 に答える