R を使用してビッグ データ (つまり、TB に達するデータ) を分析するための提案を探しています。
通常は、データを前処理して、ユーザーが分析を実行するために必要な情報だけをロードする方がよいと思います。ただし、大規模なデータセット (たとえば 200 GB) からの情報を集約する必要がある場合は、最初に、行指向の DBMS ではなく列データベースにデータを格納する方が効率的だと思います。2 つ目は、CPU を集中的に使用するデータ分析の場合、RHadoop / RHIPE を使用した分散コンピューティング機能を持つことはおそらく価値があります。また、複数の企業ユーザーがいる場合、これらを実装する最善の方法は何でしょうか... (大規模なデータセットで同時に作業している 10 人の研究者など)
R インデックス作成、R で効率的な計算を行うための mmap パッケージなど、Web 上のリソースをいくつか見つけましたが、実際にこれらをエンタープライズ レベルで作業および実装したことのある人からフィードバックを得たいと考えました。
ご提案いただきありがとうございます。
よろしく。