問題タブ [quartile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - パンダは四分位数をどのように計算しますか?
私は非常に単純なデータフレームを持っています:
df.median() = 23 リスト内の 19 の値のうち、23 は 10 番目の値 (23 の前に 9 つの値、23 の後に 9 つの値) であるため、これは正しいです。
1番目と3番目の四分位数を次のように計算しようとしました:
中央値より下の 9 つの値から、第 1 四分位数は 19 になると予想していましたが、上記のように、python は 20 であると言っています。
パンダはどのように四分位数を計算しますか?
元の質問は次のリンクからのものです: https://www.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/box-whisker-plots/a/identifying-outliers-iqr-rule
r - 適切なサブセット四分位数をデータセットに添付する
NBA プレーヤー データセットに 2 つの列を追加しようとしています。最初の列は、データセット内のすべてのプレーヤーの中でプレーヤーの年齢がどの四分位にあるかを示します。2 番目の追加の列は、個々のプレーヤーの年齢がポジションの中でどの四分位にあるかを示します (つまり、ポイント ガード、スモール フォワード、センターなど)。dplyr パッケージを使用して、プレーヤーの位置に基づいてサブセットの年齢の四分位数を計算することはできますが、それを元のデータセットに戻す方法や、これが正しいアプローチであるかどうかはわかりません。
dplyr を使用して、位置に基づいてサブセットの年齢四分位数を計算しました。fuzzyjoin などの他のパッケージを使用しようとしましたが、快適に作業できません。
プレーヤーのデータセットには 664 の観測値と 32 の変数が含まれていると予想されます。最後の 2 つは、この手順の結果として追加されています。追加の行には、含まれるすべてのプレーヤーに基づくプレーヤーの年齢の四分位と、ポジションに基づくプレーヤーの年齢の四分位が表示されます。
r - 条件に基づいて、データフレーム内のデータの中央値および四分位分割列を作成します (R)
例として mtcars を使用すると、次のようになります。
値が中央値を下回っている/上回っていることを示す列と、値がどの四分位にあるかを示す列の 2 つの列を追加する方法 ただし、これはのグループごとに実行したいと思いcyl
ます。
これは私が望んでいる具体的な結果です:
助けていただければ幸いです。ありがとうございました。
以下のakunの回答に続いて編集
列ではquartile_split
、akun の回答は、各 cyl グループの最低値を で残しましたNA
。以下を追加することでこれを修正できると思いました:
したがって、完全なコードは次のようになります。
しかし、もっと注意深く見てみると、別の何かが正しくないこともわかりました。具体的には、cyl = 6
グループだけを見ると、次のようになります。
disp
このグループの中央値は 163.8 であるため、 の 2 台の車disp = 167.6
は「below_median」ではなく「above_median」に分類する必要があります。
これが何とか解決できることを願っています。ありがとうございました。