問題タブ [r-bigmemory]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
99 参照

r - R のいくつかの big.matrix オブジェクトの要素ごとの平均、na.rm = TRUE

この質問は、ここで尋ねられた質問と非常によく似ています: Element-wise mean of several big.matrix objects in R .

ただし、na.rm = TRUE を考慮して、18 個のファイルでバックアップされた big.matrix オブジェクト (それぞれが 4 GB を超える) の要素ごとの平均を計算することを目指しています。

通常のサイズの行列の場合、次のようにします。

16GB の RAM を搭載した 64x Windows10 マシンを使用しています。

どんな提案でも大歓迎です。ありがとう!

0 投票する
2 に答える
325 参照

r - 2.8 GB gzip で圧縮された (40 GB TSV) ファイルを R にバッチで読み込む方法は?

31 個の gzip された TSV を含むディレクトリがあります (2.8 GB 圧縮 / 40 GB 非圧縮)。1 列の値に基づいて一致するすべての行を条件付きでインポートし、1 つのデータ フレームに結合したいと考えています。

ここでいくつかの回答を読みましたが、どれも機能していないようです。それほど多くのデータを処理するためのものではないと思われます。

要するに、どうすればいいですか:

  1. 3 GB の gzip ファイルを読み取る
  2. 列が特定の値に一致する行のみをインポートする
  3. 一致する行を 1 つのデータ フレームに結合します。

データは整理されており、重要な列は 4 つだけです: date、ip、type (str)、category (str)。

私が使ってみた最初のことread_tsv_chunked()

この最初のアプローチは、9 GB の非圧縮データでは機能しましたが、40 GB では機能しませんでした。

fread()(同じロード済みパッケージ)を使用した2番目のアプローチ:

それは機能し始めたように見えましたが、その後ロックされました。/呼び出し内にselect = c(colnames)引数を渡す方法がわかりませんでした。1 つの列のフィルター基準は言うまでもありません。fread()map()str_c()