38

R でいくつかのログファイル分析を行う予定です (R で実行できない場合を除きます)。また、データが RAM に収まる必要があることも理解しています (keyval ストアへのインターフェイスのような何らかの修正を使用しない限り、多分?)。そのため、データが RAM でどのくらいのスペースを占めるか、十分に確保できるかどうかを事前に知る方法を考えています。私は自分が持っているRAMの量を知っており(XPでは3GBという膨大な量ではありません)、ログファイルが最終的にいくつの行と列になるか、そして列エントリがどのようなデータ型であるべきかを知っています(これはおそらく次のように確認する必要があります読みます)。

これをRで分析を行うためのゴー/ノーゴーの決定にどのようにまとめるのですか? (おそらく、R は、データを保持するだけでなく、操作を行うための RAM を備えている必要があります!) すぐに必要な出力は、統計、頻度、不測の事態などの簡単な要約の集まりです。短期的に必要な出力を提供するパーサー/タブレータですが、次のステップとしてこのデータへのさまざまなアプローチを試してみたいので、R を使用する可能性を検討しています.

ここで R の大規模なデータセットに関する有益なアドバイスをたくさん見てきましたが、これを読み、また読み直します。そこにあるが、それを扱いやすくするためにいくつかの追加のことをしなければならないことを期待するか、(c) 手遅れになる前に逃げて、他の言語/環境で何かをする (提案を歓迎します...!)。ありがとう!

4

1 に答える 1

41

bigmemoryR は、またはff パッケージ(特にread.csv.ffdf) のようなすぐに使えるソリューションを使用するか、独自のスクリプトを使用してチャンクで処理するかのいずれかで、大きなデータセットに適しています。ほとんどの場合、少しプログラミングするだけで、大規模なデータセット (>> メモリ、たとえば 100 Gb) の処理が非常に可能になります。この種のプログラミングを自分で行うには、習得に時間がかかりますが (あなたのレベルはわかりません)、非常に柔軟になります。これがあなたのお茶なのか、それとも走る必要があるのか​​は、これらのスキルを習得するために投資したい時間によって異なります. しかし、一度それらを取得すると、データ アナリストとしての生活がずっと楽になります。

ログファイルの分析に関しては、コール オブ デューティ 4 (コンピュータ マルチプレイヤー ゲーム) から生成された統計ページは、ログ ファイルをデータベースに繰り返し解析し、データベースからユーザーごとの統計を取得することによって機能することを知っています。インターフェイスの例については、こちらを参照してください。反復的な (チャンクでの) アプローチは、ログファイルのサイズが (ほぼ) 無制限であることを意味します。ただし、優れたパフォーマンスを実現することは簡単ではありません。

R でできることの多くは、Python や Matlab、さらには C++ や Fortran でも実行できます。ただし、そのツールが必要なものをすぐにサポートできる場合にのみ、そのツールが R よりも優れていることがわかりました。大規模なデータの処理については、HPC タスク ビューを参照してください。非常に大きなテキスト ファイルをチャンクで読み取るための min の以前の回答も参照してください。あなたにとって興味深いかもしれない他の関連リンク:

R やその他のツールの選択に関しては、それが Google にとって十分であるなら、それで十分だと思います ;)。

于 2012-10-07T09:20:48.787 に答える