問題タブ [data-munging]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
129 参照

r - R - データ変更とスケーラブルなコード

こんにちは、ここ数日、私は小さな/大きな問題を抱えていました。

100 万行と 2 つの列 (クライアント ID と製品 ID) を持つトランザクション データセットがあり、これをバイナリ マトリックスに変換したいと考えています。reshape と spread 関数を使用しましたが、どちらの場合も 64MB の RAM を使用し、Rstudio/R がダウンしました。私は 1 つの CPU しか使用していないため、処理に多くの時間がかかります。私の質問は、スモール データとビッグ データの間のこの移行における新たな前進は何ですか? 誰がより多くのCPUを使用できますか?

検索していくつかの解決策を見つけましたが、専門家の意見が必要です

1 - Spark R を使用していますか?

2 - H20.ai ソリューション? http://h2o.ai/product/enterprise-support/

3 - 革命分析? http://www.revolutionanalytics.com/big-data

4 - クラウドに移行しますか? マイクロソフトの紺碧のような?

必要に応じて、多くのコアを備えた仮想マシンを使用できます..しかし、このトランザクションをスムーズに行う方法を知る必要があります

私の特定の問題

私はこのdata.frameを持っています(ただし、100万行あります)

そして私はしました:

これは小さなデータセットで機能します..しかし、100万行では、これには長い時間(12時間)がかかり、最大RAMが64MBであるためダウンします。助言がありますか?

0 投票する
1 に答える
2983 参照

user-defined-functions - リスト/配列をパラメーター/戻り値の型としてRedshiftのUDFに渡したり返したりする

列の float 値のリスト全体を消費する一連のメトリックがあります (異常値分析を行っている一連の順序値を考えてください。したがって、値の配列全体が必要です)。

リスト全体をパラメーターとして渡すことはできますか? これを完全にPythonで行うとしたら、データの変更が多すぎます。考え?

  1. 別の関数から (DB で select ステートメントを使用して)を渡すことができm = np.median(y)ますが、再び abs_dev & left_mad & right_mad を計算するには、シリーズ全体が必要です。

  2. anyelementここでデータ型を使用できますか? AWS リファレンス : http://docs.aws.amazon.com/redshift/latest/dg/udf-data-types.html

これは私が試したものです。また、フラグが「0」の場合はその列の値を返したいのですが、2回目のパスでできると思いますか?

私の最終目標は、UDF (最終目標) を介して行われたこれらの計算を使用してタブロー ビューにデータを入力することです。提案?

0 投票する
5 に答える
176 参照

r - 3 桁の文字シーケンスの行値の繰り返し - 整理されたデータ

次のデータ フレームがあるとします。

次の結果を生成したいと思います。

tidyr-- おそらくcomplete()またはから何かを活用できるのではないかと考えていexpand()ますが、 と に 3 文字の文字列があるdf$startdf$end問題が発生します。

私は : を使用してやや成功しましたが、これapply(df, 1, function(i) seq(as.numeric(i["start"]), as.numeric(i["end"])))を のようなものに渡すことができましたがstringr::str_pad(..., width = 3, pad = "0")、これらの繰り返されるシーケンスでゾーンをきれいに取得する方法がわかりません。

0 投票する
0 に答える
73 参照

count - SAS データセットが野球で連勝を記録

こんにちは: 野球のデータセットを処理しています。連勝したチームの連勝を数えたい。winstreak という変数を作成しました。チーム A が 1 回勝った場合は 1、チーム A が 2 回連続で勝った場合は 1 です。は 2 で、チーム A が負けると再び 0 に戻ります。これまでのところ、私は試しました:

winstreak は PHIWIN と同じ値しか表示しないため、コードは機能しません。助けてください!

0 投票する
2 に答える
359 参照

r - Rの別の列値に基づいて列に値を割り当てる方法は?

私はデータフレームを持っています

col2に基づく値を持つ追加の列col4を追加したいと思います。col2 で同じ値を持つ行は、col4 でも同じ値になります。

回避策として、次の方法で結果を生成しました。

これは機能しますが、これを行うより良い方法があると思いました。ありがとうございました!