hadoop - Hadoop for Business Intelligence の設計に関する考慮事項の評価と比較

Question

データウェアハウジングとビジネスインテリジェンスのためのさまざまなテクノロジを検討していて、Hadoop という急進的なツールにたどり着きました。Hadoop は、BI の目的のために正確に構築されているようには見えませんが、この分野での可能性を秘めているという参考文献があります。( http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488 )。

私がインターネットから得た情報はほとんどありませんが、従来の BI ソリューションの分野で Hadoop が破壊的なテクノロジーになる可能性があることを私の直感は教えてくれます。このトピックに関する情報は本当に少ないので、Oracle Exadata や vertica などの従来のバックエンド BI インフラストラクチャと比較して、BI ツールとしての Hadoop の可能性に関するすべてのグルの考えをここに集めたいと思いました。はじめに、次の質問をしたいと思います -

設計上の考慮事項- Hadoop を使用した BI ソリューションの設計は、従来のツールとどのように異なりますか? Hadoopでスキーマを作成できないと読んだので、違うはずです。また、Hadoop の ETL ツールを完全に排除できることが大きな利点になるとも読みました (これは本当ですか?) BI ソリューションを得るには、Hadoop + pig + mahout が必要ですか??

ありがとうございます。それでは、お元気で！

編集 - 複数の質問に分割します。私が最もインプだと思うものから始めます。

score 2 · Accepted Answer

Hadoop は、ファクトテーブルを表す巨大なファイルを格納するのに非常に適しています。これらのテーブルは、テーブルを表す個々のファイルを個別のディレクトリに配置することでパーティション化できます。Hive はそのようなファイル構造を理解し、分割されたテーブルのようにクエリを実行できます。Hive を介して SQL クエリの形式で Hadoop データに対する BI の質問を表現することができますが、場合によっては MapReduce ジョブを作成して実行する必要があります。

score 2 · Accepted Answer

Hadoop は、BI ソリューションの一部となる優れたツールです。それ自体は BI ソリューションではありません。Hadoop が行うことは、Data_A を取り込み、Data_B を出力することです。Bi に必要であるが有用な形式ではないものはすべて、MapReduce を使用して処理し、有用な形式のデータを出力できます。CSV、HIVE、HBase、MSSQL、またはデータを表示するために使用されるその他のもの。

Hadoop は ETL ツールであるべきだと思います。それが私たちがそれを使用しているものです。1 時間ごとに数ギグのログファイルを処理して Hive に保存し、MSSQL サーバーにロードして視覚化レイヤーを介して表示する毎日の集計を行います。

私が実行した主な設計上の考慮事項は次のとおりです。
-データの柔軟性:ユーザーが事前に集計されたデータを表示できるようにするか、それとも、クエリを調整して必要に応じてデータを表示する柔軟性をユーザーに持たせますか?
-速度:どのくらいの期間を希望しますか?ユーザーはデータを待つ必要がありますか? ハイブ（たとえば）は遅いです。かなり小さなデータセットでも、結果を生成するのに数分かかります。トラバースするデータが大きいほど、結果を生成するのに時間がかかります。
-ビジュアライゼーション:どのタイプのビジュアライゼーションを使用しますか? たくさんの部品をカスタムビルドしたいですか、それとも既製のものを使用できるようにしたいですか? ビジュアライゼーションには、どのような制約と柔軟性が必要ですか? ビジュアライゼーションはどの程度柔軟で変更可能である必要がありますか?

h番目

更新:視覚化の欠如について尋ねる @Bhat のコメントへの回答として...
HBase に格納されたデータを効果的に利用できる視覚化ツールの欠如は、ソリューションを再評価する主な要因でした。生データを Hive に保存し、データを事前に集計して HBase に保存しました。これを利用するには、カスタムコネクタ (この部分を実行) と視覚化レイヤーを作成する必要がありました。何を生産できるか、何が市販されているかを検討し、商用ルートに進みました。
ウェブログを処理するための ETL ツールとして、今でも Hadoop を使用しています。ETL された生データを商用のビッグデータデータベースに送信するだけで、設計の Hive と HBase の両方に取って代わります。

Hadoop は、MSSQL やその他のデータウェアハウスストレージと実際には比較できません。Hadoop は (HDFS を無視して) ストレージを行わず、データの処理を行います。MapReduce の実行 (Hive が行う) は、MSSQL (またはそのようなもの) よりも遅くなります。

score 0 · Accepted Answer

Big Data / Hadoop 向け BI ツールの比較表を作成中 http://hadoopilluminated.com/hadoop_book/BI_Tools_For_Hadoop.html

それは進行中の作業であり、どんな意見も歓迎します。

(免責事項 : 私はこのオンラインブックの著者です)

score 0 · Accepted Answer

ビジネスの観点から、価値の低いデータが多数ある場合は、Hadoop を検討する必要があります。RDBMS/MPP ソリューションの費用対効果が低い場合が多くあります。また、データが構造化されていない場合 (HTML など) には、Hadoop を重要な選択肢として検討する必要があります。

hadoop - Hadoop for Business Intelligence の設計に関する考慮事項の評価と比較

4 に答える 4

Related

Reference