問題タブ [data-munging]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R - データ変更とスケーラブルなコード
こんにちは、ここ数日、私は小さな/大きな問題を抱えていました。
100 万行と 2 つの列 (クライアント ID と製品 ID) を持つトランザクション データセットがあり、これをバイナリ マトリックスに変換したいと考えています。reshape と spread 関数を使用しましたが、どちらの場合も 64MB の RAM を使用し、Rstudio/R がダウンしました。私は 1 つの CPU しか使用していないため、処理に多くの時間がかかります。私の質問は、スモール データとビッグ データの間のこの移行における新たな前進は何ですか? 誰がより多くのCPUを使用できますか?
検索していくつかの解決策を見つけましたが、専門家の意見が必要です
1 - Spark R を使用していますか?
2 - H20.ai ソリューション? http://h2o.ai/product/enterprise-support/
3 - 革命分析? http://www.revolutionanalytics.com/big-data
4 - クラウドに移行しますか? マイクロソフトの紺碧のような?
必要に応じて、多くのコアを備えた仮想マシンを使用できます..しかし、このトランザクションをスムーズに行う方法を知る必要があります
私の特定の問題
私はこのdata.frameを持っています(ただし、100万行あります)
そして私はしました:
これは小さなデータセットで機能します..しかし、100万行では、これには長い時間(12時間)がかかり、最大RAMが64MBであるためダウンします。助言がありますか?
user-defined-functions - リスト/配列をパラメーター/戻り値の型としてRedshiftのUDFに渡したり返したりする
列の float 値のリスト全体を消費する一連のメトリックがあります (異常値分析を行っている一連の順序値を考えてください。したがって、値の配列全体が必要です)。
リスト全体をパラメーターとして渡すことはできますか? これを完全にPythonで行うとしたら、データの変更が多すぎます。考え?
別の関数から (DB で select ステートメントを使用して)を渡すことができ
m = np.median(y)ますが、再び abs_dev & left_mad & right_mad を計算するには、シリーズ全体が必要です。anyelementここでデータ型を使用できますか? AWS リファレンス : http://docs.aws.amazon.com/redshift/latest/dg/udf-data-types.html
これは私が試したものです。また、フラグが「0」の場合はその列の値を返したいのですが、2回目のパスでできると思いますか?
私の最終目標は、UDF (最終目標) を介して行われたこれらの計算を使用してタブロー ビューにデータを入力することです。提案?
r - 3 桁の文字シーケンスの行値の繰り返し - 整理されたデータ
次のデータ フレームがあるとします。
次の結果を生成したいと思います。
tidyr-- おそらくcomplete()またはから何かを活用できるのではないかと考えていexpand()ますが、 と に 3 文字の文字列があるdf$startとdf$end問題が発生します。
私は : を使用してやや成功しましたが、これapply(df, 1, function(i) seq(as.numeric(i["start"]), as.numeric(i["end"])))を のようなものに渡すことができましたがstringr::str_pad(..., width = 3, pad = "0")、これらの繰り返されるシーケンスでゾーンをきれいに取得する方法がわかりません。
count - SAS データセットが野球で連勝を記録
こんにちは: 野球のデータセットを処理しています。連勝したチームの連勝を数えたい。winstreak という変数を作成しました。チーム A が 1 回勝った場合は 1、チーム A が 2 回連続で勝った場合は 1 です。は 2 で、チーム A が負けると再び 0 に戻ります。これまでのところ、私は試しました:
winstreak は PHIWIN と同じ値しか表示しないため、コードは機能しません。助けてください!
r - Rの別の列値に基づいて列に値を割り当てる方法は?
私はデータフレームを持っています
col2に基づく値を持つ追加の列col4を追加したいと思います。col2 で同じ値を持つ行は、col4 でも同じ値になります。
回避策として、次の方法で結果を生成しました。
これは機能しますが、これを行うより良い方法があると思いました。ありがとうございました!