問題タブ [quantile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
9910 参照

r - Hmisc の cut2 を使用して、さまざまな数のグループのカットを計算する

Hmiscのcut2を使用して、ベクトルの等分位カットを計算しようとしていました。

しかし、私は次の結果を期待していました (33%、33%、33%):

cut2 を使用するか、別の方法を試す必要がありますか? どうすればそれを機能させることができますか?アドバイスありがとうございます。

0 投票する
2 に答える
4279 参照

r - R の 10 進数関数 - 入れ子になった ifelse() ステートメントが実行時間を短縮する

ベクトルの各行の十分位数を計算する関数を作成しました。これは、予測モデルの有効性を評価するためのグラフィックを作成する意図で行っています。これを行うにはもっと簡単な方法が必要ですが、しばらくの間、それを理解できませんでした。入れ子になった ifelse() ステートメントをあまり使わずに、この方法でベクトルをスコアリングする方法を知っている人はいますか? 結果をコピーするための関数といくつかのコードを含めました。

0 投票する
2 に答える
2050 参照

r - 分位点回帰の信頼区間は? そして、デフォルト以外を見つける方法は?

分位点回帰の信頼区間を構築する方法があります。

デフォルトは何ですか?5%ですか?10% など、別のものを見つける方法は?

0 投票する
3 に答える
10968 参照

r - R、分散カットオフに基づくフィルター マトリックス

以下の編集を参照してください 。R を使用して、(遺伝子発現データの) マトリックスをフィルター処理し、分散の高い値を持つ行 (遺伝子/プローブ) のみを保持したいと思います。たとえば、下位パーセンタイルと上位パーセンタイル (たとえば、20% 未満で 80% を超える) の値を持つ行のみを保持したいと思います。ダウンストリーム分析のために、分散の大きい遺伝子のみに研究を限定したいと考えています。Rでの遺伝子フィルタリングの一般的な方法はありますか?

私のマトリックスには、18 個のサンプル (列) と 47000 個のプローブ (行) があり、値は log2 変換され、正規化されています。quantile()関数が各サンプル列内の 20% と 80% のカットオフを識別できることはわかっています。マトリックス全体でこれらの値を見つけてから、元のマトリックスをサブセット化してすべての「変化しない」行を削除する方法がわかりません。

平均が 5.97 の行列の例。最後の 3 行は、カットオフ 20% から 80% の間の値が含まれているため、削除する必要があります。

検討すべき提案や機能をいただければ幸いです。ありがとう!

編集

申し訳ありませんが、OPではあまり明確ではありませんでした。(1) (個々のサンプルだけでなく) マトリックス全体の 20% と 80% のカットオフ値を知りたいです。(2) 次に、いずれかの行に上位または下位のパーセンタイルの値が含まれている場合、R はこれらの行を保持します。行に (すべてのサンプルの) 平均値に近い値が含まれている場合、これらの行は除外されます。

0 投票する
2 に答える
722 参照

r - 変位値回帰出力からの複数行の格子:: xyplot

これは、3 番目の「列」が実際には行列である data.frame です。

次のコードで作成されました。

性別とタウレベルによる予測の折れ線グラフが欲しいです。次の方法でポイント プロットを取得できます。

type="l" を追加すると、 のさまざまなレベルを接続する線が前後に移動しtauました。

問題があるとは思えませんが、quantreg_4.96/rms_3.6-3/Hmisc_3.10-1 を使用して Mac 10.7.5 で実行しています。古典的なテーマの ggplot ソリューションを見せたい場合は、それでも構いません。ggplot2 が苦手で、Harrell の rms パッケージが格子に結合されているだけです。

0 投票する
2 に答える
7944 参照

r - data.frame の分位数

分位数を計算したい列の data.frame() があります。

ただし、結果には、結果全体ではなく、変位値の戻りリストの最後の要素のみが含まれます。警告も表示されlonger argument not a multiple of length of shorterます。コードを変更して機能させるにはどうすればよいですか?

PS: 関数だけでも魔法のように機能するので、for ループを使用できます。

PPS:指定しないことも機能しますprobs

0 投票する
1 に答える
549 参照

statistics - 指数データセットを扱う場合、mquantiles() の使用は正確ですか?

データセット内の特定の値の分位点を与える最も正確な関数を見つけようとしています。データセットは (おそらく) 常に指数分布になります。

私が使用している方法論は次のとおりです (コーディングが貧弱である場合は申し訳ありません。私は実際にはインフラストラクチャの専門家であり、統計担当者でも日常的な開発者でもありません)。

調べているうちに、 などの高度な機能がいくつかあることに気付きましたscipy.stats.[distribution type].ppf()

これらを使用する利点は何mquantiles()ですか?

データセット内のデータの分布を効率的に決定するために利用できる方法はありますか (これは私の懸念事項scipy.stats.[distribution type]()です)。

ありがとう、

マット

[アップデート]

「統計担当者」と話し合った結果、この方法 (彼が「経験的方法」と呼んだもの) は、分布がわからない場合でも有効であると私は信じています。分布を見つけるには、コルモゴロフ–スミルノフ検定scipy.stats.ksoneを使用できます。これはおよびを介して明らかになりscipy.stats.kstwobign、分布を決定してから、scipy.stats.[distribution type].ppf()関数の 1 つを利用します。彼はまた、それはまったく問題ではなく、上記の方法は、このすべての作業をほとんど報酬なしで行うのと同じくらい優れていると述べました. 彼は、上記の方法の強度は、利用可能なデータの量に応じて増加すると警告しましたがdata(逆もまた真であることを意味します)、小さなデータセットに対して法律を適用するという問題を解決した人は誰もいない.

私がやろうとしているのは、データセットの強度を考慮し、結果に重みを付けて、データセットが「小さい」場合ははるかにファジーである/重みが少ないと見なすことです。「小さい」とは?まだ分​​からない。

ppf() と mquantile() の効果的な使用について、他の人々の意見を引き続き見つけたいと思います。