3

非常に大きなデータセットのRで箱ひげ図を作成しようとしています。データを含むファイルは2.5Gであり、インポートしようとするとRがクラッシュします。幸いなことに、他の(python)ソフトウェアは問題なく平均と分散を生成できます。これが、私が本当にプロットしたいすべてです(今のところ)。

これまでに見つけたすべてのチュートリアルでは、完全なデータセットを入力する必要があり、Rは統計自体を計算しますが、プロットのためだけに平均、中央値、最小値、最大値などをbwplotに渡す方法を考えていました。Rとlatticeを好む理由は、コードがソフトウェアスイートとうまく統合されるためです。matlabやその他のソフトウェアを使用した場合、現在のユーザーからのさらに別の要件になるため、問題が発生します。

4

1 に答える 1

6

箱ひげ図は、平均または分散をプロットしません。適切な箱ひげ図をプロットするには、実際には完全にランク付けされたデータが必要です。これは、量が中央値、四分位数、およびIRQの1.5倍以内のデータポイントとその範囲外のすべてのデータポイント(外れ値)の実際の値であるためです。これは通常、大規模なデータセットには適していません(定義上、数百万の外れ値があるため)。

とは言うものの、基本的な要約を任意の方法で生成し、bxpそれらをプロットするために使用できます?bxp。Rを参照してください。上記でない場合は、プロットする量を明確にしてください。

于 2011-12-22T01:57:50.790 に答える