r - R のデータセットが大きくなりすぎる時期をどのように判断できますか?

Question

R でいくつかのログファイル分析を行う予定です (R で実行できない場合を除きます)。また、データが RAM に収まる必要があることも理解しています (keyval ストアへのインターフェイスのような何らかの修正を使用しない限り、多分？）。そのため、データが RAM でどのくらいのスペースを占めるか、十分に確保できるかどうかを事前に知る方法を考えています。私は自分が持っているRAMの量を知っており（XPでは3GBという膨大な量ではありません）、ログファイルが最終的にいくつの行と列になるか、そして列エントリがどのようなデータ型であるべきかを知っています（これはおそらく次のように確認する必要があります読みます）。

これをRで分析を行うためのゴー/ノーゴーの決定にどのようにまとめるのですか? (おそらく、R は、データを保持するだけでなく、操作を行うための RAM を備えている必要があります!) すぐに必要な出力は、統計、頻度、不測の事態などの簡単な要約の集まりです。短期的に必要な出力を提供するパーサー/タブレータですが、次のステップとしてこのデータへのさまざまなアプローチを試してみたいので、R を使用する可能性を検討しています.

ここで R の大規模なデータセットに関する有益なアドバイスをたくさん見てきましたが、これを読み、また読み直します。そこにあるが、それを扱いやすくするためにいくつかの追加のことをしなければならないことを期待するか、(c) 手遅れになる前に逃げて、他の言語/環境で何かをする (提案を歓迎します...!)。ありがとう！

score 41 · Accepted Answer

bigmemoryR は、またはff パッケージ(特にread.csv.ffdf) のようなすぐに使えるソリューションを使用するか、独自のスクリプトを使用してチャンクで処理するかのいずれかで、大きなデータセットに適しています。ほとんどの場合、少しプログラミングするだけで、大規模なデータセット (>> メモリ、たとえば 100 Gb) の処理が非常に可能になります。この種のプログラミングを自分で行うには、習得に時間がかかりますが (あなたのレベルはわかりません)、非常に柔軟になります。これがあなたのお茶なのか、それとも走る必要があるのかは、これらのスキルを習得するために投資したい時間によって異なります. しかし、一度それらを取得すると、データアナリストとしての生活がずっと楽になります。

ログファイルの分析に関しては、コールオブデューティ 4 (コンピュータマルチプレイヤーゲーム) から生成された統計ページは、ログファイルをデータベースに繰り返し解析し、データベースからユーザーごとの統計を取得することによって機能することを知っています。インターフェイスの例については、こちらを参照してください。反復的な (チャンクでの) アプローチは、ログファイルのサイズが (ほぼ) 無制限であることを意味します。ただし、優れたパフォーマンスを実現することは簡単ではありません。

R でできることの多くは、Python や Matlab、さらには C++ や Fortran でも実行できます。ただし、そのツールが必要なものをすぐにサポートできる場合にのみ、そのツールが R よりも優れていることがわかりました。大規模なデータの処理については、HPC タスクビューを参照してください。非常に大きなテキストファイルをチャンクで読み取るための min の以前の回答も参照してください。あなたにとって興味深いかもしれない他の関連リンク：

R で非常に大きなテーブルをデータフレームとしてすばやく読み取る
https://stackoverflow.com/questions/1257021/suitable-functional-language-for-scientific-statistical-computing (議論には、大規模なデータ処理に使用することが含まれます)。
巨大な (3.5 GB) csv ファイルをトリミングして R に読み込む
データセットの RAM 使用量を見積もる方法を示す私のブログ投稿。これは、データが行列または配列に格納されることを前提としており、単なる 1 つのデータ型であることに注意してください。
Rによるログファイル処理

R やその他のツールの選択に関しては、それが Google にとって十分であるなら、それで十分だと思います ;)。

r - R のデータセットが大きくなりすぎる時期をどのように判断できますか?

1 に答える 1

Related

Reference