41

私は長年 R を使用しており、最近 Python を使い始めました。従来の RDBMS システムをデータ ウェアハウスに使用し、R/Python を計算処理に使用しているため、ビッグ データ分析に手を染める必要性を感じています。

ビッグデータの処理を開始する方法を知りたいです。- Map/Reduce と Hadoop の使用で簡単に始める方法

  • R と Python のスキルを活用して、ビッグ データ分析を開始するにはどうすればよいですか。たとえば、Python Disco プロジェクトを使用します。
  • RHIPE パッケージを使用して、おもちゃのデータセットと問題のある領域を見つけます。
  • RDBMS タイプのデータベースから NoSQL に移行する必要があるかどうかを判断するための適切な情報を見つける

全体として、ビッグデータ分析のスキルとノウハウを少しずつ始めて、徐々に積み上げていく方法を知りたいです。

あなたの提案と推奨事項に感謝します。このクエリの一般的な性質については申し訳ありませんが、このトピックについてより多くの視点を得たいと思っています。

  • ひどい
4

2 に答える 2

29

たとえば、Python Disco プロジェクトを使用します。

良い。それで遊んでください。

RHIPE パッケージを使用して、おもちゃのデータセットと問題のある領域を見つけます。

罰金。それも遊んでください。

「大きな」データセットを探すのに苦労しないでください。小さなデータセットでさえ、非常に興味深い問題を提示します。実際、どのデータセットも出発点です。

私はかつて、組織の 6,000 万ドルの予算を分析するために小さなスター スキーマを作成しました。ソース データはスプレッドシートにあり、基本的に理解できませんでした。そこで私はそれをスター スキーマにアンロードし、Python でいくつかの分析プログラムを作成して、関連する数値の単純化されたレポートを作成しました。

RDBMS タイプのデータベースから NoSQL に移行する必要があるかどうかを判断するための適切な情報を見つける

かんたんだよ。

まず、たとえば、データ ウェアハウジングに関する本 (Ralph Kimball の The Data Warehouse Toolkit) を入手してください。

次に、「スター スキーマ」を注意深く調べます。特に、Kimball が (詳細に) 説明しているすべてのバリアントと特殊なケースを調べます。

第 3 に、次のことを認識してください。SQL は更新とトランザクションのためのものです。

「分析」処理 (大小を問わず) を行う場合、更新はほとんどありません。SQL (および関連する正規化) は、もはやそれほど重要ではありません。

Kimball のポイント (および他のポイントも) は、データ ウェアハウスのほとんどは SQL ではなく、単純なフラット ファイルにあるということです。データ マート (アドホックなスライス アンド ダイス分析用) をリレーショナル データベースに配置して、SQL を使用した簡単で柔軟な処理を可能にすることができます。

したがって、「決定」は些細なことです。トランザクション (「OLTP」) の場合は、リレーショナルまたは OO DB にある必要があります。分析 (「OLAP」) の場合、スライス アンド ダイス分析を除いて SQL は必要ありません。それでも、DB は必要に応じて公式ファイルからロードされます。

于 2010-12-01T11:03:11.583 に答える
1

考慮できることの 1 つは、DMelt ( http://jwork.org/dmelt/ ) データ分析プログラムです。注目すべき機能の 1 つは、Python 言語を使用した数百の例と数冊の本があることです。私がそれを使用していた理由は、それが私の Windows 10 で動作し (Java VM を使用しているため)、さらに、ベクター グラフィックス形式にエクスポートできる 2D/3D の非常に優れたグラフィックスを備えているためです。

于 2016-05-30T22:49:23.257 に答える