問題タブ [r-bigmemory]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R のいくつかの big.matrix オブジェクトの要素ごとの平均、na.rm = TRUE
この質問は、ここで尋ねられた質問と非常によく似ています: Element-wise mean of several big.matrix objects in R .
ただし、na.rm = TRUE を考慮して、18 個のファイルでバックアップされた big.matrix オブジェクト (それぞれが 4 GB を超える) の要素ごとの平均を計算することを目指しています。
通常のサイズの行列の場合、次のようにします。
16GB の RAM を搭載した 64x Windows10 マシンを使用しています。
どんな提案でも大歓迎です。ありがとう!
r - 2.8 GB gzip で圧縮された (40 GB TSV) ファイルを R にバッチで読み込む方法は?
31 個の gzip された TSV を含むディレクトリがあります (2.8 GB 圧縮 / 40 GB 非圧縮)。1 列の値に基づいて一致するすべての行を条件付きでインポートし、1 つのデータ フレームに結合したいと考えています。
ここでいくつかの回答を読みましたが、どれも機能していないようです。それほど多くのデータを処理するためのものではないと思われます。
要するに、どうすればいいですか:
- 3 GB の gzip ファイルを読み取る
- 列が特定の値に一致する行のみをインポートする
- 一致する行を 1 つのデータ フレームに結合します。
データは整理されており、重要な列は 4 つだけです: date、ip、type (str)、category (str)。
私が使ってみた最初のことread_tsv_chunked()
:
この最初のアプローチは、9 GB の非圧縮データでは機能しましたが、40 GB では機能しませんでした。
fread()
(同じロード済みパッケージ)を使用した2番目のアプローチ:
それは機能し始めたように見えましたが、その後ロックされました。/呼び出し内にselect = c(colnames)
引数を渡す方法がわかりませんでした。1 つの列のフィルター基準は言うまでもありません。fread()
map()
str_c()