問題タブ [split-apply-combine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pandas の split-apply-combie 中に省略された列
各メンバーの合計数量を見つけるために分割適用結合を行っています。必要なデータフレームには 14 列が必要です: MemberID, DSFS_0_1, DSFS_1_2, DSFS_2_3, DSFS_3_4, DSFS_4_5, DSFS_5_6, DSFS_6_7, DSFS_7_8, DSFS_8_9, DSFS_9_10, DSFS_10_11, DSFS_11_12, DrugCount
. しかし、14 番目のもの ( DrugCount
) を取得していません。変数joined
は 14 個すべてを出力しますがjoined_grouped_add
、集計を行う関数は 13 個しか返しません。
r - R の data.table を使用してグループごとにすべての ID ペアを生成する
多くのグループに多くの個人 (ID を持つ) を持つ data.table があります。各グループ内で、ID のすべての組み合わせ (個人のすべてのペア) を見つけたいと考えています。split-apply-combine アプローチでこれを行う方法は知っていますが、data.table の方が高速であることを期待しています。
サンプルデータ:
分割適用結合方式:
私の最善の data.table の試みは、可能なすべての組み合わせを持つ 2 つの列ではなく、1 つの列を生成します。
前もって感謝します。
matlab - 非スカラー出力を持つ関数を使用した Matlab2016 splitapply
Matlab2016 にテーブルがあり、列のグループ化に関数を適用したいと思います。splitapply 関数でこれを実行できることはわかっていますが、出力が非スカラーであるが、適用される列のエントリに固有の tierank などの関数を使用したいと思います。
たとえば、 x列の要素に対して tierank 関数を使用してy列を計算したいとします。tierank はtの下のグループ [0,1] に基づくべきです。したがって、t値0とt値1の要素を別々にランク付けします。できれば、テーブル全体に一度適用できる関数を使用します。splitapply 関数または他の関数でこれを行う方法はありますか? ありがとう!
r - 列ごとにグループ化し、R の他のすべての列の平均と sd を計算します
列ごとにグループ化し、R の他のすべての列の平均と標準偏差を計算するにはどうすればよいですか?
例として、有名なアイリスのデータセットを考えてみましょう。種ごとのグループ化と同様のことを行い、花びら/がく片の長さ/幅の測定値の平均と標準偏差を計算します。これが split-apply-combine と関係があることは知っていますが、そこから先に進む方法がわかりません。
私が思いつくことができるもの:
望ましい出力:
r - R - 条件付き IF から各行の一致条件を差し引いたもの
product
私のデータセットには、タイプとpurchase
数量の列が含まれています。各行の実際のpurchase
数量から各タイプの平均数量を差し引くことができるようにしたいと考えています。product
purchase
おおよそ次のようなデータセットがあります
次のように、分割適用結合メソッドを使用してこれを行うことができます。
これは機能しますが、それ以外の場合は長くてよく整理されたチェーンの途中で発生し、 and を使用%>%
しdplyr
ます。dplyr
チェーンを壊さずに必要なものを取得できるようにする方法はありますか?
ありがとうございました。
python - 複製によるデータの正規化
注:この質問は実際にはSplit pandas dataframe string entry to separate rowsの複製ですが、ここで提供される回答はより一般的で有益であるため、すべての点を考慮して、スレッドを削除しないことを選択しました
次の形式の「データセット」があります。
そして、各IDのすべての値を複製して正規化したいと思います:
私がやっていることは、グループごとに作成するpandas
使用の分割適用結合原則を適用することです.groupby
tuple
(groupby value, pd.DataFrame())
行のIDを単純にカウントするグループ化する列を作成しました:
行を複製する方法は次のとおりです。
私はゆっくりと進歩していますが、それは本当に複雑です。この種の問題について共有できるベスト プラクティスや推奨事項をいただければ幸いです。
r - 別のグループ化変数に基づいて変数を別の方法でカットする
例: 性別ごとの身長のデータセットがあります。カットポイントが平均として定義されている高さを低と高に分割したいと思います-各性別内の2sd。
データセットの例:
ベクトル化されたコードの 1 行で何かを実行したいのですが、それが可能であると確信しているのですが、その書き方がわかりません。cut()
、apply()
、および/またはdplyr
これを達成する方法があると思います。
r - グループごとのリストのリストの処理
リストのリストを処理したいと思います。具体的には、グループ化変数 (各リストの最初のメンバー) によって各リストの 3 番目のメンバーであるデータフレームを抽出し、mean()、median()、sd()、length() などのいくつかの関数を使用したいと考えています。そのグループのデータ。出力はデータフレームで返され、次のようになります。
私の質問は次のとおりです。1.上記が機能しないのはなぜですか? 2. これは非常に扱いにくいと感じます。これを行うためのより効率的な方法はありますか?