問題タブ [quantile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - quantreg 分位点回帰パッケージでゼロ/NULL 係数を返す R
このquantreg
パッケージを使用して、R で分位点回帰を計算しています。次のコマンドを使用して QR を呼び出します。
戻り値を見ると、変数 flightHours と flightHoursType の係数はゼロ/NULL です。
追加するse = "nid"
と、警告メッセージも表示されます。
警告メッセージ: summary.rq(quantGsReg15, se = "nid") : 7 非正の fis
以前に計算した OLS 回帰は、そうではない可能性が高いことを示しています。さまざまな QR メソッド ( method = "fn") を試しましたが、成功しませんでした。
0.5 分位数に対して同じコマンドを呼び出すと、同様の出力が返されます。ただし、別の警告メッセージが表示されます。
警告メッセージ: rq.fit.br(x, y, tau = tau, ci = TRUE, ...) : 解が一意でない可能性があります
私は何を間違っていますか?私は今30分間グーグルで検索しましたが、成功しませんでした。
r - R での分位点回帰分析
通常の OLS 係数とその CI を使用して係数グラフを信頼区間 (CI) でプロットしようとすると、原点を介して回帰を強制するたびにエラーが発生することに気付きました。
したがって、このコードを使用すると (engel は R の分位点回帰の例のデータです):
問題はなく、coefficeint グラフが描画されます。しかし、これを使用すると:
インターセプトが原点を通過するため、問題があります。分位点回帰の最初のコードのように、切片なしでプロットを取得するにはどうすればよいですか。
cluster-computing - Web ログからのスコアリング カテゴリ
Web サイトのカテゴリの個別スコアリング用のスコアラーを構築しています。
入力 :ユーザー ID 、カテゴリ
出力 :ユーザー ID、score_cat_1、score_cat_2 など...
スコアは 10 で与えられます。
私の計画は、最初に各ユーザーの各カテゴリのクリック数をカウントし、次に結果を分位数 (おそらく 1000) で分割し、最後に各カテゴリの分位数に対してクラスター アルゴリズムを使用して、それらを 10 個のクラスターにクラスター化することです。 、レートを与えます。
アイデアは、同じクラスター内で互いに接近している分位数をグループ化し、「10% の最高のクリッカーが 10 を獲得し、次の 10% が 9 を獲得する」などと言うよりも興味深いスコアを獲得することです。
私の問題は次のとおりです
。1-それは良い考えだと思いますか? それを行うためのより自然で正確な方法はありますか?
2-クラスターが小さすぎる可能性があり、各クラスターの基数を保証できません。
sql - Postgresql:パーセンタイルを取得し、各タイルの数を数えます
次の結果セットを生成しました
上記の結果セットは、次のクエリから生成されます。
今私がやろうとしているのは、パーセンタイルを計算することです:
上記のどの列を使用するのがより理にかなっているかはわかりませんが、degree_easy と degree_hard を使用してパーセンタイルまたは少なくとも 1 つを計算したいと仮定するとntile
、postgres で関数を使用してこれを行うにはどうすればよいですか?
次のことを行う際のベストプラクティスは何ですか:
r - 高次の分位数
R の単純なデータセットが与えられた場合、その 40 番目の分位点を見つける必要があります。これはどのように行うことができますか?
前もって感謝します!
python - pandas DataFrame で中央値を超える値を中央値自体に置き換えるようにコードを改善する
列の中央値を超えるすべての値を列自体の中央値に置き換えたいと思います。
ここに私のデータフレームがあります:
これが私の解決策です:
私はデータフレームに慣れていないので、これをより「パンダ」な方法で、または派手な線形代数を使用して行うことができるかどうか疑問に思っていました.
返信ありがとうございます。
回答を編集:
これは、それぞれ hurrial と chrisb からのソリューションの簡単な時間です。
np.minimum を使用したソリューションの方が速いようです。
ありがとう、今日は np.where と np.minimum という 2 つの強力なことを学びました。
hadoop - Apache Pig 分位グループ化
Pig のグループ化の問題に対する解決策を見つけようとしています。現在、次のようなデータセットがあります。
DataFu ライブラリの StreamingQuantile メソッドを使用して、高さ変数の変位値 (25、50... エッチング) を計算しています。現在は機能していますが、各グループとその分位数の AVG 重みも計算する必要があります。したがって、次のようになります。
参考までに、分位数を計算するための単純な Pig を次に示します。
とにかく、各分位点とグループの平均 $2 を計算することもできますか?
c++ - C++ コードのスニペットを説明する
次の C++ スニペットを理解するために、C++ の「クラス」やその他の高度なテクニックを学び始めました。質問する前にオンラインで検索したので、ばかげていると思われる場合は、質問の評価を下げないでください。
このコードは、「GK メソッド」と呼ばれるオンライン分位数アルゴリズムを実装しています。コードを学習することで、アルゴリズムの実際のワークフローを理解しようとします。完全なコードには 191 行あるので、ここにはコピーしませんでした 。https ://github.com/coolwanglu/quantile-alg/blob/master/gk.h にあります。
私が理解していないコードの部分は以下のリストです:
#48,49 の意味がわかりません。
ここで「タイプと名前」とはどういう意味ですか?
最後に、GK メソッドに精通している人がたまたまこれを見た場合: このメソッドの実際の実装を説明したり、参考文献を提案したりできますか? ありがとう。
javascript - 四分位値が与えられた場合の d3 分位数または四分位数スケール
現在の分位スケールは、出力範囲をマッピングするドメインとしてすべての入力値を使用します。しかし、データが非常に大きい場合は、サーバー上で処理を行って四分位値を取得したいと考えています。
だから私は得る:
var quartiles=[5, 10, 15, 20, 25, 30, 35, 40, 45]; // 9 values with the mean (25) at the middle and standard deviations to each side
var valueToMark = 37;
d3 を使用して、分位数スケールを正しく作成し、分位数とマークする値のみを指定して、それらすべてを 1 行にマークするにはどうすればよいですか?
ps分位数/四分位数に関する私の知識は限られているため、ここで示した間違った仮定についても修正していただければ幸いです。