問題タブ [group-summaries]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R のグループに対する結果の頻度のパーセンテージを見つける
次のようなエージェントベースのモデルからの時系列データを表す非常に大きなデータ フレームがあります。
このデータセットの各行は、モデルの 1 つのサイクルを表します。これは、任意の長さの時間にわたって実行され、「単一性」、「安定性」、または「不安定性」の 3 つの終了のいずれかで終了する可能性があります。
ディメンションと接続によってファセット化された時系列データを表示する大きなグラフを作成しています。特定のエンディングで終了するすべての実行がグラフで別の色になるように、実行を終了で分離したいと考えています。各線の太さを、そのバッチで発生した各種エンディングの相対頻度にしたいと考えています。
これを行うには、このデータに別の列「カウント」を追加する必要があります。この列は、ディメンションと接続によってグループ化された実行のバッチで特定の終了が発生した回数をカウントし、その数を各行に表示します。あの結末が特徴。
したがって、実行 1 から 10 までが次元 ==4 で接続 ==2 であるとします。そのうち 4 回は「安定」、2 回は「不安定」、2 回は「団結」で終了しました。それぞれのエンディングを取得したデータのバッチの各行に対して、「カウント」列を 4、2、および 2 にしたいと思います。
これは大変なことです。前もって感謝します!
r - R dplyr 集計ベースの条件
生成したレポートに基づいて Web サイトからダウンロードした項目のデータ セットがあります。ダウンロード数に基づいて、不要になったレポートを削除するという考え方です。ロジックは基本的に、ダウンロードされた昨年のすべてのレポートをカウントし、それらが今年の中央値周辺の 2 つの絶対偏差の外側にあるかどうかを確認し、レポートが過去 4 週間以内にダウンロードされたかどうかを確認し、そうであればどのようにダウンロードしたかを確認します。何度も
以下のコードは機能しません。誰かが助けてくれるかどうか疑問に思っていました.n_recent_downloadsセクションのエラーが表示されます
FUN(X[[1L]], ...) のエラー: すべての数値変数を持つデータ フレームでのみ定義されています
r - 他の列のnrowsに基づいてグループごとにデータテーブルを要約します
以下のこのコマンドは、グループごとの人口を追加し、それを各グループの行数で割ることによってテーブルを要約することを知っています。
ただし、私がやりたいことは、各グループの別の列の行数 によって、合計された母集団を分割することです。このようなもの:
ここでのポイントは、geoid
id6
とid7
が のサブリージョンでct
E1010
あるため、と の人口は、それらが含まれるより広い地域の人口id6
とid7
同じ割合である必要があるということです。E1010
期待される結果
以下の再現可能な例を使用すると、これは私が得たい結果です。
再現可能な例
.net - カスタム グループ集計 (合計値、アイテム値)
合計とアイテムごとに 1 つを含むグリッドビュー サマリー カスタム計算があります。作成したグループに従って値を動的に再計算し、合計金額を維持する必要があります。
DevExpress ドキュメントで、これを見つけました: https://www.devexpress.com/Support/Center/Quest/Details/Q273195
SOで、私はこれを見つけました:加重平均サマリーをDevExpress XtraGridに追加する方法は?
私の方法:
r - 各グループに関連する列が動的に作成された dplyr による相対頻度
複数のカテゴリの要約列を作成するための非常に便利なソリューションに従っています。リンクされたソリューションで説明したように、各サブグループのパーセンテージ列を生成するコードを使用しています。
リンクされたソリューションからの関連サンプル コード:
コードは目的の値を生成します。
問題
このコードを変更して、呼び出しで渡された 2 番目のカテゴリで使用可能な一意のカテゴリに関連する列を動的に作成したいと考えていdplyr
ます。これはgear
、添付の例の場合です。したがって、添付の例の場合、結果のデータ フレームは次のようになります。
試み
少数のカテゴリについては、ここでconditionally
説明したように、指定された条件に対してのみステートメントを実行しようとするの値の要約を利用できると思います。ただし、このアプローチは、複数のカテゴリを扱う場合には非効率的です。ループを使用して目的のカテゴリの一意の値をジャンプすることで、外部のソリューションを開発できますが、私の望みは でこれを行うことです。dplyr
sumBfoo = sum(B[A=="foo"]))
dplyr
dplyr
サンプルテーブル
大まかに言えば、次のようなテーブルを作成したいと思います。
しかし、カウントと合計やその他のガジェットのない行の比率だけに興味があります。
r - dplyr でグループ化された値の一意の値と集計値のカウントを同時に導出する効率的な方法
以下を含むグループテーブルごとの要約を取得する効率的な方法を見つけることに興味があります。
- グループごとの一意の値のカウント
- 選択した変数の記述統計量のプリミティブ セット
たとえば、記述統計を生成する場合、次のコードを使用しています。
これにより、目的の出力が生成されます。
各グループごとの値の数を反映する図でデータを充実させることに興味があります。カウントに関しては、これは簡単に実行できます。
これにより、必要なデータが生成されます。
問題
この問題は、両方の変換を同時に適用したい場合に発生します。
試行 1
たとえば、コード:
生成されます:
以前に生成された記述統計なし。
試行 2
コード:
失敗すると予想されます:
Error: n does not take arguments
試行 3 (動作中)
コード:
必要なデータを提供します:
これは、この要約を作成する非常に非効率的な方法だと思います。特に、大きなテーブルを操作する場合、その場でオブジェクトを作成するのは非効率的です。同じ結果を達成することに興味がありますが、マージのためだけにオブジェクトを作成する必要のない、より効率的な方法です。特に、私がやりたいことdplyr
は、テーブルの以前のバージョンから追加の要約を導出することに対応します。例えば:
- グループ
- 記述統計を作成する
- グループ化したらデータに戻る
- いくつかの追加の統計を生成し、最終データに追加します
r - group_by とサマライズを使用した並列 wilcox.test
wilcox.test
group_by を使用して複数のオブザベーションを並行して呼び出す R-ly の方法が必要です。私はこれを読むのにかなりの時間を費やしましたが、それでもその呼び出しが機能するwilcox.test
ことを理解できません。magrittr
パイプとを使用した以下のデータとコードの例summarize()
。
バグのある呼び出しにより、次のエラーが発生します。
ご協力いただきありがとうございます; 同様の質問を持つ他の人にも役立つことを願っています。