問題タブ [r-bigmemory]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

94 問題

0 投票する

0 に答える

99 参照

r - R のいくつかの big.matrix オブジェクトの要素ごとの平均、na.rm = TRUE

この質問は、ここで尋ねられた質問と非常によく似ています: Element-wise mean of several big.matrix objects in R .

ただし、na.rm = TRUE を考慮して、18 個のファイルでバックアップされた big.matrix オブジェクト (それぞれが 4 GB を超える) の要素ごとの平均を計算することを目指しています。

通常のサイズの行列の場合、次のようにします。

16GB の RAM を搭載した 64x Windows10 マシンを使用しています。

どんな提案でも大歓迎です。ありがとう！

r na r-bigmemory

2018-10-17T09:23:03.800

0 投票する

2 に答える

325 参照

r - 2.8 GB gzip で圧縮された (40 GB TSV) ファイルを R にバッチで読み込む方法は?

31 個の gzip された TSV を含むディレクトリがあります (2.8 GB 圧縮 / 40 GB 非圧縮)。1 列の値に基づいて一致するすべての行を条件付きでインポートし、1 つのデータフレームに結合したいと考えています。

ここでいくつかの回答を読みましたが、どれも機能していないようです。それほど多くのデータを処理するためのものではないと思われます。

要するに、どうすればいいですか：

3 GB の gzip ファイルを読み取る
列が特定の値に一致する行のみをインポートする
一致する行を 1 つのデータフレームに結合します。

データは整理されており、重要な列は 4 つだけです: date、ip、type (str)、category (str)。

私が使ってみた最初のことread_tsv_chunked()：

この最初のアプローチは、9 GB の非圧縮データでは機能しましたが、40 GB では機能しませんでした。

fread()（同じロード済みパッケージ）を使用した2番目のアプローチ：

それは機能し始めたように見えましたが、その後ロックされました。/呼び出し内にselect = c(colnames)引数を渡す方法がわかりませんでした。1 つの列のフィルター基準は言うまでもありません。fread()map()str_c()

r data.table readr r-bigmemory

2018-10-24T01:04:16.783

1 2 3 4 5 6 7 8 9 10

問題タブ [r-bigmemory]

r - R のいくつかの big.matrix オブジェクトの要素ごとの平均、na.rm = TRUE

r - 2.8 GB gzip で圧縮された (40 GB TSV) ファイルを R にバッチで読み込む方法は?

Reference