5

私は概念実証タスクに取り組んでいます。タスクは、Hadoop テクノロジを使用して製品の機能を実装することです。

機能は非常にシンプルです。「ネットワークの問題」に関する詳細を挿入できる UI があります。このような問題に関するすべての詳細が取得され、Oracle DB のテーブルに挿入されます。次に、このテーブルのデータを処理し、ヘルス スコアを計算します。

従来の Db の代わりに Hadoop を使用する必要があります。HDFS上のImpala? または Hbase の Impala ? またはHbase?

POC の実装に cloudera VM を使用しています。

私の理解によると、Hbase は NoSQL 分散データベースであり、実際には HDFS 上のレイヤーであり、データにアクセスするための Java API を提供します。Impala は、Hbase 経由または直接 HDFS 経由でデータにアクセスするための JDBC アクセスも提供するツールです。私はhadoopに非常に慣れていません。誰か助けてもらえますか?

4

1 に答える 1

5

それは、実行しようとしている処理の種類、希望する応答時間など、いくつかの要因によって異なります。しかし、ここに書かれている内容を見ると、HBase は問題ないようです。今のところImpalaの必要性はありません。HBase API は優れており、ほとんどのニーズに対応します。

私見ですが、最初はシンプルに保ち、本当に必要な場合にのみツールを追加することをお勧めします。ここでも同じことが言えます。HBase API が目的を果たせなくなった場合は、間違いなく Impala をスタックに追加できます。

そうは言っても、心に留めておくべきことが1つあります。HBase は NoSQL DB であり、RDBMS の規則や用語には従いません。そのため、最初は少し奇妙に感じるかもしれません。RDBMS スタイルのスキーマ設計とはまったく異なる方法でスキーマを設計する必要があるため、このことを念頭に置いて続行することをお勧めします。

于 2013-07-09T08:29:57.240 に答える