たとえば、Python Disco プロジェクトを使用します。
良い。それで遊んでください。
RHIPE パッケージを使用して、おもちゃのデータセットと問題のある領域を見つけます。
罰金。それも遊んでください。
「大きな」データセットを探すのに苦労しないでください。小さなデータセットでさえ、非常に興味深い問題を提示します。実際、どのデータセットも出発点です。
私はかつて、組織の 6,000 万ドルの予算を分析するために小さなスター スキーマを作成しました。ソース データはスプレッドシートにあり、基本的に理解できませんでした。そこで私はそれをスター スキーマにアンロードし、Python でいくつかの分析プログラムを作成して、関連する数値の単純化されたレポートを作成しました。
RDBMS タイプのデータベースから NoSQL に移行する必要があるかどうかを判断するための適切な情報を見つける
かんたんだよ。
まず、たとえば、データ ウェアハウジングに関する本 (Ralph Kimball の The Data Warehouse Toolkit) を入手してください。
次に、「スター スキーマ」を注意深く調べます。特に、Kimball が (詳細に) 説明しているすべてのバリアントと特殊なケースを調べます。
第 3 に、次のことを認識してください。SQL は更新とトランザクションのためのものです。
「分析」処理 (大小を問わず) を行う場合、更新はほとんどありません。SQL (および関連する正規化) は、もはやそれほど重要ではありません。
Kimball のポイント (および他のポイントも) は、データ ウェアハウスのほとんどは SQL ではなく、単純なフラット ファイルにあるということです。データ マート (アドホックなスライス アンド ダイス分析用) をリレーショナル データベースに配置して、SQL を使用した簡単で柔軟な処理を可能にすることができます。
したがって、「決定」は些細なことです。トランザクション (「OLTP」) の場合は、リレーショナルまたは OO DB にある必要があります。分析 (「OLAP」) の場合、スライス アンド ダイス分析を除いて SQL は必要ありません。それでも、DB は必要に応じて公式ファイルからロードされます。