問題タブ [summarize]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - グループごとの要約統計量を取得する方法
R / S-PLUSで、カテゴリ列ごとにグループ化された複数の要約統計量を1回のショットで取得しようとしています。いくつかの関数を見つけましたが、それらはすべて、のように、呼び出しごとに1つの統計を実行しますaggregate()
。
私が探しているのは、平均、最小、最大、標準など、同じグループの複数の統計を1回の呼び出しで取得することですが、それは実行可能ですか?
r - データフレームにカスタムビンを定義して適用する
Pythonを使用して、類似性の値を含む次のデータフレームを作成しました。
ビンを反映する別のデータフレームを生成するRスクリプトを作成しようとしていますが、値が0.5を超え、次のようになる場合、ビニングの条件が適用されます。
擬似コード:
上記のロジックに基づいて、データフレームを構築したい
これをスクリプトとして開始するにはどうすればよいですか、それともPythonでこれを実行する必要がありますか?Rがどれほど強力であるか、機械学習パッケージの数を調べた後、Rに慣れようとしています。私の目標は分類器を構築することですが、最初にRに精通している必要があります:)
r - 大規模なデータ フレームで文字列の出現回数を行ごとにカウントする
大きなデータフレームでバイナリ文字の結果を行ごとにカウントしようとしています:
私が知る必要があるのは、行ごとの勝敗の頻度です。これはほんの短い例 (大規模なシミュレートされた出力の一部) ですが、行 1 の場合、5 つのシミュレーションで、5 つの損失、2 つの行で 3 つの損失、2 つの勝利などがあります。
行ごとの勝敗の頻度を示す別のテーブルを生成するか、それが機能しない場合は、2 つの新しい列を追加することを望んでいました。
各行は異なるケースであり、各列はそのケースの複製です。これは、「負け」「勝ち」の 2 つのレベルを持つ要因のデータ フレームとして表示されます。
python - 複数の関数によるdplyrの要約/集約に相当するパンダは何ですか?
dplyr
パッケージが簡単にグループ化して複数の要約を実行できるR から pandas への移行に問題があります。
複数の集計のための既存の Python pandas コードの改善にご協力ください:
問題:
- 冗長すぎる
- おそらく最適化して効率的にすることができます。
for-loop groupby
(実装をに書き直したgroupby.agg
ところ、パフォーマンスが大幅に向上しました)。
R では、同等のコードは次のようになります。
更新: @ayhan が私の質問を解決しました。これは、コメントではなくここに投稿するフォローアップの質問です。
Q2)groupby().summarize(newcolumn=max(col2 * col3))
関数が 2 つ以上の列の複合関数である集計/要約に相当するものは何ですか?
count - Crystal レポートは、グループごとにインスタンスをカウントしてから合計します
私のサブレポートには、アカウント ID と請求書番号のグループがあります。アカウント ID 内で、複数の請求書番号を持つことができます。
例えば:
アカウント 1234
- 請求書 6789
- 請求書 5432
- 請求書 5432
- 請求書 9999
私が欲しいのは請求書の数です。この例を使用すると、カウントが 3 になるはずです。アカウント ID の下に 3 つの一意の請求書番号があります。現在の合計、数式、および要約を試しました。
svn - SVN 差分 - オプション ' --summarize '
私が使うたびに
私は次のようなものを取得します:
これらの頭文字 (例: A、M) は何のためですか?
r - R - dplyr 要約して他の列を保持
データをグループ化して要約していますが、別の列も保持したいと考えています。その列の内容は常に group_by 列と同じであるため、評価を行う必要はありません。group_by ステートメントに追加できますが、それは「正しく」ないようです。State.Full.Name
でグループ化した後に保持したいState
。ありがとう
r - 日付に基づくdplyrのグループの条件付き要約
私は R 初心者であり、その ID のタイプ「B」のイベント間で発生した各 ID のイベント タイプの数を合計するデータセットで要約を実行しようとしています。説明するサンプルを次に示します。
これは以下を生成します:
イベント「B」が発生するたびに、その B イベントの前に発生した各イベント タイプの数を知りたいのですが、その ID の他の B イベントの後に発生しました。私が最終的にやりたいのは、次のようなテーブルです。
調査中、この質問は最も近いものでした: dplyr の別のフィールドの値に基づいてフィールドを要約する
私はこの仕事をしようとしてきました:
しかし、それはエラーになります (また、うまくいったとしても、id=3 のように、同じ ID で 2 つの「B」イベントを考慮していません)。