問題タブ [data-munging]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

201 問題

0 投票する

2 に答える

129 参照

r - R - データ変更とスケーラブルなコード

こんにちは、ここ数日、私は小さな/大きな問題を抱えていました。

100 万行と 2 つの列 (クライアント ID と製品 ID) を持つトランザクションデータセットがあり、これをバイナリマトリックスに変換したいと考えています。reshape と spread 関数を使用しましたが、どちらの場合も 64MB の RAM を使用し、Rstudio/R がダウンしました。私は 1 つの CPU しか使用していないため、処理に多くの時間がかかります。私の質問は、スモールデータとビッグデータの間のこの移行における新たな前進は何ですか? 誰がより多くのCPUを使用できますか?

検索していくつかの解決策を見つけましたが、専門家の意見が必要です

1 - Spark R を使用していますか?

2 - H20.ai ソリューション? http://h2o.ai/product/enterprise-support/

3 - 革命分析? http://www.revolutionanalytics.com/big-data

4 - クラウドに移行しますか? マイクロソフトの紺碧のような？

必要に応じて、多くのコアを備えた仮想マシンを使用できます..しかし、このトランザクションをスムーズに行う方法を知る必要があります

私の特定の問題

私はこのdata.frameを持っています（ただし、100万行あります）

そして私はしました：

これは小さなデータセットで機能します..しかし、100万行では、これには長い時間（12時間）がかかり、最大RAMが64MBであるためダウンします。助言がありますか？

2015-11-19T10:54:12.807

0 投票する

1 に答える

2983 参照

user-defined-functions - リスト/配列をパラメーター/戻り値の型としてRedshiftのUDFに渡したり返したりする

列の float 値のリスト全体を消費する一連のメトリックがあります (異常値分析を行っている一連の順序値を考えてください。したがって、値の配列全体が必要です)。

リスト全体をパラメーターとして渡すことはできますか? これを完全にPythonで行うとしたら、データの変更が多すぎます。考え？

別の関数から (DB で select ステートメントを使用して)を渡すことができm = np.median(y)ますが、再び abs_dev & left_mad & right_mad を計算するには、シリーズ全体が必要です。
anyelementここでデータ型を使用できますか? AWS リファレンス : http://docs.aws.amazon.com/redshift/latest/dg/udf-data-types.html

これは私が試したものです。また、フラグが「0」の場合はその列の値を返したいのですが、2回目のパスでできると思いますか?

私の最終目標は、UDF (最終目標) を介して行われたこれらの計算を使用してタブロービューにデータを入力することです。提案？

user-defined-functions amazon-redshift udf data-munging

2016-02-04T03:28:33.143

0 投票する

5 に答える

176 参照

r - 3 桁の文字シーケンスの行値の繰り返し - 整理されたデータ

次のデータフレームがあるとします。

次の結果を生成したいと思います。

tidyr-- おそらくcomplete()またはから何かを活用できるのではないかと考えていexpand()ますが、とに 3 文字の文字列があるdf$startとdf$end問題が発生します。

私は : を使用してやや成功しましたが、これapply(df, 1, function(i) seq(as.numeric(i["start"]), as.numeric(i["end"])))をのようなものに渡すことができましたがstringr::str_pad(..., width = 3, pad = "0")、これらの繰り返されるシーケンスでゾーンをきれいに取得する方法がわかりません。

r dplyr tidyr data-munging

2016-06-15T16:20:26.320

0 投票する

0 に答える

73 参照

count - SAS データセットが野球で連勝を記録

こんにちは: 野球のデータセットを処理しています。連勝したチームの連勝を数えたい。winstreak という変数を作成しました。チーム A が 1 回勝った場合は 1、チーム A が 2 回連続で勝った場合は 1 です。は 2 で、チーム A が負けると再び 0 に戻ります。これまでのところ、私は試しました：

winstreak は PHIWIN と同じ値しか表示しないため、コードは機能しません。助けてください！

count sas data-processing data-munging

2016-07-04T02:29:01.863

0 投票する

2 に答える

359 参照

r - Rの別の列値に基づいて列に値を割り当てる方法は?

私はデータフレームを持っています

col2に基づく値を持つ追加の列col4を追加したいと思います。col2 で同じ値を持つ行は、col4 でも同じ値になります。

回避策として、次の方法で結果を生成しました。

これは機能しますが、これを行うより良い方法があると思いました。ありがとうございました！

r merge data-munging

2016-08-12T09:52:00.303

1 2 3 4 5 6 7 8 9 10

問題タブ [data-munging]

r - R - データ変更とスケーラブルなコード

user-defined-functions - リスト/配列をパラメーター/戻り値の型としてRedshiftのUDFに渡したり返したりする

r - 3 桁の文字シーケンスの行値の繰り返し - 整理されたデータ

count - SAS データセットが野球で連勝を記録

r - Rの別の列値に基づいて列に値を割り当てる方法は?

Reference