問題タブ [iqr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - SPSSでIQRを集約する方法は?
必要な変数の平均、中央値、標準偏差、および四分位範囲(IQR)を生成することにより、いくつかの連続変数を含む非常に大きなデータテーブルを(もちろんカテゴリ別のブレーク変数を使用して)集約する必要があります。
最初の3つは、SPSS Aggregateコマンドを使用した簡単なものですが、データテーブルを集計してIQRを計算する方法がわかりません。
記述統計(四分位数)を使用してIQRを計算できることは知っていますが、集計で計算する必要があるため、これはオプションではありません。残念ながら、Rの使用は、いくつかの奇妙な状況のおかげでも失敗します(Rで、base :: read.table、sqldf、bigmemory、ffパッケージのいずれでも巨大なコンマ区切りファイルをロードできません)。
どんなアイデアでも大歓迎です!そしてもちろん:よろしくお願いします。
PS:標準偏差に1.5を掛けてIQRを推定することを考えましたが、分布が歪んでいるため、その方法は機能しないため、正規性が成り立たないと仮定します。
PS:SPSS内でRを使用しても、純粋なRでデータセットを開いているときのようなメモリの問題は発生しないと思いますか?
jfreechart - JFreeChart Boxplotsの外れ値ルール?
JFreeChart の外れ値ルールについていくつか質問があります。
- JFreeChart Boxplotの外れ値ルールに影響を与えることは可能ですか?
- 外れ値のデフォルト設定は Q3+1.5*IQR と Q1-1.5*IQR だと思いますか?
Q3+3*IQR や Q1-3*IQR のような極端な値に対する既定の規則はありますか?
たぶんこれは別の質問になるはずですが、外れ値の記号をどのように設定しますか? デフォルトの設定は、私の好みには大きすぎる円です。
私のデータは DefaultBoxAndWhiskerCategoryDataset にあり、デフォルト設定を変更する必要があるかどうかさえわかりません。それにもかかわらず、デフォルト設定が正確に何であるかを知っておくとよいでしょう ;)
r - 行のグループの IQR を見つける
データフレーム内の値の範囲の IQR を見つけたいと思っています。これらの値もグループ化されているため、データフレーム内の各グループの IQR を見つける必要があります。次の表があります。
次のコードを実行して、IQR を見つけます。
これは私に出力を与えます:
この出力はすべてのモル濃度を正しくグループ化しますが、IQR は正しくありません。上記のコードが IQR ではなく関数として平均を持っている場合、x の値 (関数値) は次のように正しいです。
予想される IQRS は次のようになります。
どんな助けでも大歓迎です。モル濃度カテゴリを含むスポット サイズのグループ (スポット サイズの範囲が 100pl から 400pl の範囲) がある場合に、IQR でこの機能を実行する方法を誰かが知っている場合は、それらを聞きたいと思います。
SOさんよろしくお願いします。
python - Matplotlib の Tukey Boxplots - コード内の外れ値ロジック?
StackOverflow で関連する質問への回答を読んでいるときに、matplotlibでウィスカーの位置を計算し、外れ値を検出するために使用されるコードを見ました。
これで、このelse
部分は完全に理にかなっています。Tukey boxplotsの仕様に従って、上位四分位数の 1.5 IQR 内で最高のデータを見つけます。実際、それは-以下max(wish_hi)
にある最大のデータ エントリです。 Q3+1.5*IQR
しかし、そのor
部分は...私には理解できません。if len(wisk_hi) == 0
を翻訳すると...
この条件はどのように適用できますか? Q3 は、中央値でデータを分割し、上半分の中央値を取り、その上に 1.5*IQR を追加することによって検出されます。この値よりも低いデータが存在しないのはなぜですか?
これが空のデータセットに関するものである場合、の 2 番目の部分もor
意味がありません (Q3 または IQR はデータなしでは意味がないため)。
おそらく明らかな何かが欠けている - 助けて?
r - Rで離散変数を持つデータの外れ値を見つける方法
R とデータ サイエンス全般を学び始めています。
データ フレームがあり、ほとんどの変数と予測したいクラスが離散的です。
私がする必要があるのは、このデータの外れ値を見つけて、代入などで対処できるようにすることです。
IQR (Inter Quartile Range) やクック距離、「outliers」パッケージを使用する方法をいくつか調べたのですが、それらのほとんどは連続データにしか適用できないようで、R は適用できないというエラーを出しました。要因、この場合は離散データだと思います。
「outliers」パッケージを使用したときに発生したエラーの 1 つ。
ここで何か間違ったことをしていますか?誰か助けてくれませんか?どんな助けでも大歓迎です、ありがとう。