問題タブ [quantile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
1357 参照

r - 分位数の計算を高速化

パッケージを使用して、Hmisc2 つの連続変数の分位数を計算し、結果をクロステーブルで比較しています。以下に私のコードがあります。

私の問題は、観測数が増えると分位数の計算にかなりの時間がかかることです。

やその他のパッケージを使用してdata.table、この手順を高速化する可能性はありますか?ddply

ありがとう。

0 投票する
1 に答える
1477 参照

r - 最初に分位点の信頼区間を手動で計算する (R よりも)

私のアプローチが正しいかどうかを誰かが確認できれば幸いです。要するに、エラー計算が正しい方法であるかどうかという質問になります。次のデータがあると仮定します。

さらに、データが正規分布に従っているかどうかを確認したいと思います。

編集:テストなどがあることは知っていますが、信頼できる線でqqplotを構築することに集中します。カーパッケージにメソッドがあることは知っていますが、これらのラインの構築を理解したいです。

したがって、サンプル データと理論上の分布のパーセンタイルを計算します (推定mu = 24.6609と を使用しsigma = 1.6828ます。したがって、パーセンタイルを含むこれら 2 つのベクトルになります。

alpha=0.05ここで、理論上のパーセンタイルの信頼区間を計算したいと思います。私が自分自身が正しいことを思い出すと、式は次のように与えられます

と。n=length(data)_z=quantil of the normal distribution for the given p

したがって、2 番目のパーセンタイルの信頼区間を取得するには、次のようにします。

値を挿入します。

最後に私は持っています

残りも同じ……。

それで、あなたはどう思いますか、私はそれで行くことができますか?

0 投票する
0 に答える
887 参照

mysql - MySQL Building median ストアドファンクション

グループ内の分位点を計算するストアド関数を作成したいと思います。ネットから中央値を計算するための非常に優れた SQL があります: http://geekyisawesome.blogspot.ch/2012/04/finding-median-value-using-mysql-sql.html。この SQL により、テーブルの 1 つの変数の中央値を計算できます。グループ化して中央値を計算したいと思います。これを最初に行うには、グループ内でカウンターが増加するテーブルを準備する必要があります。これでも私にとっては挑戦だったので、stackoverflow: MySQL - Counter within groupから助けを得ました。すべてをまとめると、グループ内の中央値を計算できます。

私の考えは、次のような分位点を計算できる関数 QUANTILE を構築することです。

私はストアド関数/プロシージャを構築したことがなく、ネットを見るとストアド関数のテーブルがハードコードされています。それで、そのような汎用関数を構築することが可能かどうか疑問に思っています。アドバイスをありがとう。

0 投票する
3 に答える
1216 参照

sas - SASの度数表の分位点データを計算する方法は?

データを 3 分の 1 に分割することに関心がありますが、州ごとの集計表しかありません。具体的には、州ごとの入学者数を推定しました。すべての入学者数の上位 3 分の 1 を構成する州を計算したいと思います。したがって、上位 3 分の 1 には、少なくとも合計累積パーセンテージ .33333... が含まれている必要があります。

.33333 から .40000 の間の累積パーセンテージを指定するさまざまな方法を試しましたが、一般的なケースを指定することに成功しませんでした。 PROC RANKデータが頻度表として整理されているため、使用することもできません...

以下にいくつかのダミーの (しかし代表的な) データを含めました。



の値に基づくと、cum_percent登録者の上位 3 分の 1 を構成する州は、カリフォルニア、テキサス、ニューヨーク、フロリダ、およびイリノイです。

これをプログラムで行う方法はありますか?最終的には、状態を選択するためのフラグ変数を指定したいと考えています。

ありがとう...

0 投票する
0 に答える
188 参照

matlab - matlab - パーセンタイルの時系列分析

私は現在、日付のデータセット、会社の識別子、関心のある値を csv ファイルに持っています。会社識別子と値は両方とも数値です。私のデータは現在フラットファイル形式であるため、現在次のような行があります

つまり、フラット ファイル形式の時系列があります。各企業の時系列オブジェクトを構築して、このデータを要約したいと思います。次に、すべての企業で集計された、各時点での値の特定の分位点の時系列プロットを作成したいと思います。他に指摘すべきことは、companyid/date のペアは一意であるため、データセットに重複がなく、データは既に companyid と日付でソートされていることです。

これまでに試したことは次のとおりです。