Hadoop クラスターにフィードし、そのクラスターを使用してデータを Vertica/InfoBright データ ウェアハウスにフィードするポイントは何ですか?
これらのベンダーはすべて「Hadoop と接続できる」と言い続けていますが、私にはその意味がわかりません。Hadoop に保存して InfoBright に転送するメリットは何ですか? アプリケーションを Infobright/Vertica DW に直接保存しないのはなぜですか?
ありがとうございました !
Hadoop クラスターにフィードし、そのクラスターを使用してデータを Vertica/InfoBright データ ウェアハウスにフィードするポイントは何ですか?
これらのベンダーはすべて「Hadoop と接続できる」と言い続けていますが、私にはその意味がわかりません。Hadoop に保存して InfoBright に転送するメリットは何ですか? アプリケーションを Infobright/Vertica DW に直接保存しないのはなぜですか?
ありがとうございました !
ソリューションを組み合わせる理由 Hadoop には優れた機能がいくつかあります (以下の URL を参照)。ただし、これらの機能には、ビジネス ユーザーが迅速な分析を実行できるようにする機能は含まれていません。Hadoop では 30 分から数時間かかるクエリが、Infobright では数十秒で配信されます。
ところで、あなたの最初の質問はMPPアーキテクチャを前提としておらず、正当な理由があります。Infobright の顧客である Liverail、AdSafe Media、InMobi などは、Hadoop で IEE を利用しています。
業界のホワイト ペーパーhttp://support.infobright.com/Support/Resource-Library/Whitepapers/に登録すると、Hadoop の 4 つの推奨ユース ケースが概説されている現在の市場のビューが表示されます。これは、2011 年 9 月に、TechTarget のリサーチ、ビジネス アプリケーションおよびアーキテクチャ グループのディレクターである Wayne Eckerson によって作成されました。
1) オンライン アーカイブを作成します。
Hadoop を使用すると、組織はデータを削除したり、オフライン ストレージに移動したりする必要がなくなります。汎用サーバーを追加してストレージと処理の要件を満たすことで、無期限にオンラインに保つことができます。Hadoop は、オンライン アーカイブの要件を満たすための低コストの代替手段になります。
2) データ ウェアハウスにフィードします。
組織はまた、Hadoop を使用して大量の Web またはその他のタイプのデータを解析、統合、および集約し、それをデータ ウェアハウスに送信して、カジュアル ユーザーとパワー ユーザーの両方が使い慣れた BI ツールを使用してデータのクエリと分析を行うことができます。ここで、Hadoop は、企業のデータ ウェアハウスに到達する前に大量の Web データを処理するための ETL ツールになります。
3) 分析をサポートします。
ビッグ データの群集 (つまり、インターネット開発者) は、Hadoop を主に、大量のデータに対して分析計算を実行するための分析エンジンと見なしています。Hadoop にクエリを実行するには、アナリストは現在、Java またはその他の言語でプログラムを作成し、分散 (または並列) アプリケーションを作成するためのフレームワークである MapReduce を理解する必要があります。ここでの利点は、アナリストがクエリを作成するときに SQL によって制限されないことです。SQL は、多くの種類の分析をサポートしていません。特に、Web トラフィック分析で一般的な行間計算を含む分析はサポートされていません。欠点は、Hadoop がバッチ指向であり、反復的なクエリを実行できないことです。
4) レポートを実行します。
ただし、Hadoop のバッチ指向は、定期的にスケジュールされたレポートの実行に適しています。組織は、要約データに対してレポートを実行するのではなく、生データに対してレポートを実行できるようになり、最も正確な結果が保証されます。
あなたがそれをしたいと思うかもしれないいくつかの理由があります1.TBあたりのコスト。Hadoopのストレージコストは、Vertica / Netezza / greenplumなどよりもはるかに安価です)。Hadoopでの長期保存と、分析DB 2での短期データを取得できます。Hadoop3では、hadoop(変換の実行)でのデータ取り込み機能が優れています。プログラム分析(Mahoutなどのライブラリ)により、高度なテキスト分析を構築できます4。非構造化データの処理
MPP DBは、アドホッククエリのパフォーマンスを向上させ、構造化データの処理と従来のBIツール(OLAPおよびレポート)への接続を向上させます。したがって、基本的にHadoopはこれらのDBの提供を補完します。
Hadoopは、DBというよりもプラットフォームです。
Hadoopは、さまざまなファイルタイプに対する多くのクエリをサポートする優れたファイルシステムと考えてください。これを念頭に置いて、ほとんどの人は生データをHadoopにダンプし、データパイプラインのステージングレイヤーとして使用します。ここで、データをかみ砕いて、verticaなどの他のシステムにプッシュできます。デカップリングに再開できるいくつかの利点があります。
そのため、 Hadoopはビッグデータ用の事実上のストレージプラットフォームになりつつあります。シンプルでフォールトトレラントであり、拡張性が高く、データのフィードと取得が簡単です。そのため、ほとんどのベンダーは、おそらくHadoopをインストールしている企業に製品をプッシュしようとしています。
このソフトウェアの共同展開が効果的である理由は何ですか?
まず、両方のプラットフォームには多くの共通点があります。
Hadoopは、データが多くの場合HDFSで利用可能であり、スキーマがなく、通常はバッチ ジョブで十分な最初の探索的データ分析に最適です。一方、Vertica は、既知の分析方法を繰り返し適用する必要がある定型化された対話型分析に最適です。入ってくるデータのバッチに。Vertica の Hadoop コネクタ
を使用する、ユーザーは 2 つのプラットフォーム間でデータを簡単に移動できます。また、単一の分析ジョブは、両方のプラットフォームの実行能力を活用する断片に分解できます。たとえば、Web 分析のユース ケースでは、Web サーバーによって生成された JSON データは最初に HDFS にダンプされます。その後、map-reduce ジョブが呼び出されて、そのような半構造化データをリレーショナル タプルに変換し、その結果を Vertica にロードして、最適化されたストレージとその後の分析クエリによる検索を行います。
ビッグデータに対処する際に、Hadoop と Vertica が互いに補完し合う主な違いは何ですか。
私はHadoopユーザーではありません(Verticaユーザー/ DBAだけです)が、答えは次のようなものになると思います。
-すでにHadoopを使用したセットアップがあり、集中的な分析分析のために「ビッグデータ」データベースを追加したいと考えています。
-非分析関数と処理にHadoopを使用し、分析にデータベースを使用したい。ただし、これは同じデータであるため、2つのフィードは必要ありません。
Arnon の回答を少し拡張すると、Hadoop は消え去ることのない力として認識されており、多くの場合、開発者による草の根の取り組みを通じて、組織内で勢いを増しています。MPP データベースは、「国ごとの 1 時間あたりのトランザクション数は?」など、設計時にわかっている質問への回答に優れています。
Hadoop は、アナリストと開発者の間のどこかに住む新しいタイプの開発者のためのプラットフォームとして始まりました。この開発者は、コードを書くことができ、データ分析と機械学習も理解しています。MPP データベース (列であろうとなかろうと) は、データベースや大きすぎるデータセットで実行するにはあまりにも多くの CPU パワーを必要とするアルゴリズムを使用して、非構造化データを分析することが多いこのタイプの開発者にはあまり役に立ちません。一部のモデルの構築には大量の CPU パワーが必要なため、これらのアルゴリズムを従来のシャード DB で実行することは不可能です。
Hadoop を使用する私の個人的なパイプラインは通常、次のようになります。
このワークフローは、「アナリスト開発者」または「データ サイエンティスト」に対してのみ機能することに注意してください。その他の走行距離は異なります。
あなたの質問に戻ると、私のような人々がツールを放棄したため、これらの企業は、Hadoop がビッグデータ、最もクールなスタートアップ、最先端のテクノロジーと同義語である時代に関連性を維持する方法を模索しています (これが得られるかどうかは、あなたが話し合うことができます)また、多くの Hadoop インストールは、組織の MPP 展開よりも 1 桁以上大きいため、より多くのデータが Hadoop に長期間保持されます。
非構造化データは、その性質上、従来のデータ ウェアハウスへの読み込みには適していません。Hadoop mapreduce ジョブは、ログ ファイル (例) から構造を抽出し、分析のために DW に移植することができます。Hadoop はバッチ処理であるため、分析クエリ処理には適していません。したがって、hadoop を使用してデータを処理し、何らかの構造を取得してから、視覚化/SQL レイヤーを介してクエリを実行できるようにすることができます。
Hadoop クラスターにフィードし、そのクラスターを使用してデータを Vertica/InfoBright データ ウェアハウスにフィードするポイントは何ですか?
要点は、ユーザーがクエリを起動して数分、場合によっては数時間待ってから回答を返すことを望まないということです。Hadoop はリアルタイムのクエリ応答を提供できません。これは、Cloudera の Impala と Hortonworks の Stinger の出現によって変化していますが。これらは、Hadoop 上のリアルタイム データ処理エンジンです。
Hadoop の基盤となるデータ システムである HDFS を使用すると、データをまとめてクラスタ内のノードに分散できます。実際、HDFS は S3 のようなサードパーティのデータ ストレージに置き換えることもできます。要点: Hadoop は、-> ストレージ + 処理の両方を提供します。そのため、Hadoop をストレージ エンジンとして使用し、必要に応じてデータをデータ ウェアハウスに抽出することができます。また、Hadoop を使用してキューブとマートを作成し、これらのマートを倉庫に保管することもできます。
しかし、スティンガーとインパラの出現により、これらの主張の強さは最終的に消えてしまいます。だから目を離さないでください。
Greenplum DB のような大規模な並列データベースは、大量の構造化データの処理に優れています。Hadoop は、Web サイトなど、さらに大量の非構造化データの処理に優れています。
今日では、これら両方のタイプのデータを組み合わせて洞察を得るための興味深い分析が数多く行われています。したがって、これらのデータベース システムが Hadoop と統合できることが重要です。
たとえば、MapReduce を使用して Hadoop クラスターでテキスト処理を行い、製品ごとのスコア値などを得ることができます。このスコアリング値は、データベースに既に格納されている他のデータまたは他のソースからデータベースにロードされたデータと組み合わせるために、データベースで使用できます。