1

NOSQL/Hadoop ソリューションを使用して設計された EDW (エンタープライズ データ ウェアハウス) システムはありますか?

HDFS サブシステムに接続する PDW システム (MS PDW ポリベース、Greenplum hawq など) があることは知っています。これらは独自のハードウェアおよびソフトウェア ソリューションであり、規模が大きくなると費用がかかります。NOSQL または Hadoop を使用したソリューション、できればエンタープライズ データ ウェアハウス ソリューション用のオープン ソースを探しています。導入された方がいらっしゃれば、ご感想をお聞かせいただければ幸いです。繰り返しになりますが、私は、この EDW ソリューションのプレーヤーとして、独自の RDBMS を探しているわけではありません。

私はインターネットでいくつかの調査を行いましたが、可能ですが (Impala は可能なオプションです)、NOSQL または Hadoop で完全に実装されている人は誰もいませんでした。

この種のことを行ったことがある場合は、どのように設計したか、ビジネス アナリストが使用しているさまざまなツールなどをお聞きしたいと思います。その過程での経験を共有していただければ幸いです。

更新中.... VoltDb と NEOdb (真の RDBMS ではない) はどうでしょうか。ただし、ANSI SQL をより広範囲にサポートできると主張しています。

4

1 に答える 1

2

Hadoop の上に EDW を構築する際に直面する最初の問題は、そのストレージが更新できないという事実です。そのため、SQL の UPDATE および DELETE コマンドについて忘れる必要があります。

第 2 に、Hadoop の上に構築されたソリューションは、通常、維持するのに何倍も費用がかかります。より高価なスペシャリスト、より複雑なデバッグ (Hive クエリの問題と Oracle の SQL クエリの問題のデバッグを比較すると、どちらの方が簡単でしょう)。

3 番目に、Hadoop は通常、その上に配置するあらゆるタイプのワークロードに対して、同時実行性が大幅に低下し、待機時間が大幅に増加します。

これらすべてを考えると、DWH が Hadoop の上に構築されているのは、Facebook、Yahoo、Ebay、LinkedIn などのような大企業のためだけだと思う​​のはなぜですか? 実行するのは簡単ではありませんが、実装すると、独自のソリューションよりもスケーラブルでカスタマイズしやすくなります。

したがって、Hadoop またはその他の NoSQL ソリューションを使用して DWH を構築することが明確に決定されている場合は、次のことをお勧めします。

  1. Hadoop HDFS をデータ ストレージのベースとして使用する
  2. HDFS へのデータのロードに Flume を使用する
  3. 重い ETL ジョブには Tez で Hive を使用する
  4. アナリスト向けの SQL クエリ インターフェイスとして Impala を提供する
  5. アナリスト向けの高度なツールとして Spark を提供する
  6. すべてのツールをまとめて管理およびプロビジョニングするために Ambari を使用する

これらのツールを組み合わせることで、ほとんどのニーズに対応できます

于 2014-11-01T18:53:17.073 に答える