問題タブ [quartile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 3番目の四分位数が私のデータの平均よりも小さいのはなぜですか?
gobというデータセットをRにロードして、便利なsummary
関数を試しました。3番目の四分位数は平均よりも小さいことに注意してください。どうすればいいの?それは私のデータのサイズですか、それともそのようなものですか?
すでに数字パラメーターに大きな値(例:10)を渡そうとしましたが、問題は解決しません。
gob $ 100201.Dの場合、平均は0.0000878ですが、3番目のQuであることに注意してください。=0。
statistics - データを四分位数に分割
私たちが協力しているすべてのプロバイダーの入場率を含むデータセットがあります。そのデータを四分位数に分割する必要があります。これにより、各プロバイダーは、他のプロバイダーと比較して料金がどこにあるかを確認できます。率は 7% から 89% の範囲です。誰も私にこれを行う方法を提案できますか? ここがこの質問をするのに適切な場所かどうかはわかりませんが、誰かが私を助けてくれれば、本当に感謝しています.
もう 1 つの懸念は、プロバイダーの数値が非常に小さい場合 (例: 2/4 = 50%)、プロバイダーはより悪い四分位に入る可能性がありますが、数値が非常に小さいためにプロバイダーのパフォーマンスが悪いことを意味するわけではありません。これが理にかなっていることを願っています。さらに明確にすることができるかどうか教えてください。
mysql - 可動重み付けによるデータベース項目のランキング
だから私は、かなりユニークな問題だと私が信じているものを持っています。非常に大きなアイテム テーブル (200,000ish) のランキングを計算する必要があります。それらの「ランク」は、一緒に追加されたいくつかの加重属性に基づいています。1 から 4 のスケール (四分位 1 下位四分位 4 上位に基づく) の 7 つの属性は、最初は均等に重み付けされてから加算されます (7 から 28 のスケール)。ユーザーが属性の重みを調整できるようにして、属性の一部またはすべてを 2 倍または 1/2 の重要度にできるようにしたいと考えています。これにより、最終ランキングが変わる可能性があります。誰かが同様の問題に対処したかどうか、またはどこから始めるべきかについて何か考えがあるかどうかを確認しています。ありがとう!
r - cut2 ([ ) 記号なし) を使用して Hmisc でナイス カットを取得する
私は現在Hmisc
、以下の例のように、パッケージを使用してデータをきちんとカットしようとしています:
生成されたカットは、値に関して正しいです。
ただし、データを少し異なる方法で表示したいと思います。たとえば、代わりに
[ 1, 251 )
[ 251, 501 )
表記の方がいいです
1 - 250
251 - 500
複数の変数に対して多くのことを行っているので、複数の変数に簡単に適用できる再現可能なソリューションに興味があります。
編集
コメントでの議論に続いて、ソリューションは のようなより厄介な変数で動作する必要がありますx2 <- runif(100, 5.0, 7.5)
。
mdx - MDX で四分位数を計算しようとしています
私のデータは次のようになります。
約100万行あります。列名 *ID は他のテーブルを参照するため、ディメンションとして使用できます。
列スループットをメジャーとして、残りをディメンションとして持つ OLAP キューブがあります。
スループット メジャーの四分位数 1 と 3 を計算したいと考えています。
私は次のガイドに従いました: https://electrovoid.wordpress.com/2011/06/24/ssas-quartile/ この投稿と一緒に: Analysis Services での四分位数の計算
このMDXクエリを使用しようとしたものから:
しかし、「クエリ (6, 7) ID 階層が Crossjoin 関数で複数回使用されています。」というメッセージが表示されます。
私は OLAP と MDX にまったく慣れていません。何が間違っているのか、四分位数を正しく計算する方法はありますか?
四分位数を計算するときに、集計値ではなくすべての値を含むセットを取得できるようにするには、ID ディメンションが必要であるとどこかで読みました...
r - R で特定の値の四分位数を作成したいと考えています。カテゴリごとに四分位数を作成したいと思います。どうやってやるの?
例: カテゴリ A とカテゴリ B の平均価格は、それぞれ X と Y です。どちらのカテゴリにも多数の製品が含まれています。各カテゴリの平均価格に基づいて四分位数を作成したいと考えています。
r - 隣接する標準偏差間の正規曲線の下の面積を計算する R 関数
私は GoF (適合度) テストを調べていて、データのベクトルの分位点が正規分布 N(0, 1) の予想頻度に従っているかどうかを確認したかったので、カイ 2 乗検定を実行する前に、正規分布のこれらの度数:
< -2 SD
の間 (標準偏差)、 の間-2 and -1 SD
、-1 and 0
SD の間、0 and 1
SD の間、 の間1 and 2 SD
、 とmore than 2 SD
。
そうするために、私は長い道のりをたどりました:
対称性によりコードの長さを削減できることがわかりましたが、もっと簡単な方法はありませんか...何か(これはうまくいかないと思いますが、アイデアは...)同じものをpnorm(-2:-1)
返すような値にpnorm(-1) - pnorm(-2) = 0.13590512
?
質問:隣接する標準偏差や他の分位のc(-3:3)
を減算するのではなく、ベクトルを通過させるなどして、分位間の正規曲線の下の面積を計算する R 関数はありますか?pnorm()
r - 複数の列と複数の日付の四分位数の平均
各日付グループ (1/1/2016...1/4/2016) の各列 (つまり、PB、PE、PS の四分位数) の各四分位数の平均フォワード リターン (列 fwd_rtn) を見つけようとしています。
日付 株価 PB PE PS fwd_rtn
1 1/1/2016 A 11.90 0.4 0.10 0.57 -0.015
2 1/1/2016 B 3.56 0.8 0.09 0.26 -0.036
3 1/1/2016 C 1.29 1.2 0.18 1.60 0.10
..... .
4 2016 年 1 月 4 日 A 12.80 0.39 0.13 0.53 -0.01
5 2016 年 1 月 4 日 B 4.03 0.76 0.08 0.23 0.02
6 2016 年 1 月 4 日 C 1.83 0.87 0.14 1.16 0.03
これまでのところ、このコードを使用して、1 列の 1 日付の平均リターンを見つけることができました
それは私に正しい答えを与えました。しかし、私は複数の列に対してそれを行うのに苦労しています。私は関数を使用することになっていると思いますdplyr
が、gather()
方法がわかりません。