hadoop - Vertica/InfoBright/GreenPlum などの列指向データベースが Hadoop で大騒ぎするのはなぜですか?

Question

Hadoop クラスターにフィードし、そのクラスターを使用してデータを Vertica/InfoBright データウェアハウスにフィードするポイントは何ですか?

これらのベンダーはすべて「Hadoop と接続できる」と言い続けていますが、私にはその意味がわかりません。Hadoop に保存して InfoBright に転送するメリットは何ですか? アプリケーションを Infobright/Vertica DW に直接保存しないのはなぜですか?

ありがとうございました！

score 14 · Accepted Answer

ソリューションを組み合わせる理由 Hadoop には優れた機能がいくつかあります (以下の URL を参照)。ただし、これらの機能には、ビジネスユーザーが迅速な分析を実行できるようにする機能は含まれていません。Hadoop では 30 分から数時間かかるクエリが、Infobright では数十秒で配信されます。

ところで、あなたの最初の質問はMPPアーキテクチャを前提としておらず、正当な理由があります。Infobright の顧客である Liverail、AdSafe Media、InMobi などは、Hadoop で IEE を利用しています。

業界のホワイトペーパーhttp://support.infobright.com/Support/Resource-Library/Whitepapers/に登録すると、Hadoop の 4 つの推奨ユースケースが概説されている現在の市場のビューが表示されます。これは、2011 年 9 月に、TechTarget のリサーチ、ビジネスアプリケーションおよびアーキテクチャグループのディレクターである Wayne Eckerson によって作成されました。

1) オンラインアーカイブを作成します。
Hadoop を使用すると、組織はデータを削除したり、オフラインストレージに移動したりする必要がなくなります。汎用サーバーを追加してストレージと処理の要件を満たすことで、無期限にオンラインに保つことができます。Hadoop は、オンラインアーカイブの要件を満たすための低コストの代替手段になります。

2) データウェアハウスにフィードします。
組織はまた、Hadoop を使用して大量の Web またはその他のタイプのデータを解析、統合、および集約し、それをデータウェアハウスに送信して、カジュアルユーザーとパワーユーザーの両方が使い慣れた BI ツールを使用してデータのクエリと分析を行うことができます。ここで、Hadoop は、企業のデータウェアハウスに到達する前に大量の Web データを処理するための ETL ツールになります。

3) 分析をサポートします。
ビッグデータの群集 (つまり、インターネット開発者) は、Hadoop を主に、大量のデータに対して分析計算を実行するための分析エンジンと見なしています。Hadoop にクエリを実行するには、アナリストは現在、Java またはその他の言語でプログラムを作成し、分散 (または並列) アプリケーションを作成するためのフレームワークである MapReduce を理解する必要があります。ここでの利点は、アナリストがクエリを作成するときに SQL によって制限されないことです。SQL は、多くの種類の分析をサポートしていません。特に、Web トラフィック分析で一般的な行間計算を含む分析はサポートされていません。欠点は、Hadoop がバッチ指向であり、反復的なクエリを実行できないことです。

4) レポートを実行します。
ただし、Hadoop のバッチ指向は、定期的にスケジュールされたレポートの実行に適しています。組織は、要約データに対してレポートを実行するのではなく、生データに対してレポートを実行できるようになり、最も正確な結果が保証されます。

score 4 · Accepted Answer

あなたがそれをしたいと思うかもしれないいくつかの理由があります1.TBあたりのコスト。Hadoopのストレージコストは、Vertica / Netezza / greenplumなどよりもはるかに安価です）。Hadoopでの長期保存と、分析DB 2での短期データを取得できます。Hadoop3では、hadoop（変換の実行）でのデータ取り込み機能が優れています。プログラム分析（Mahoutなどのライブラリ）により、高度なテキスト分析を構築できます4。非構造化データの処理

MPP DBは、アドホッククエリのパフォーマンスを向上させ、構造化データの処理と従来のBIツール（OLAPおよびレポート）への接続を向上させます。したがって、基本的にHadoopはこれらのDBの提供を補完します。

score 3 · Accepted Answer

Hadoopは、DBというよりもプラットフォームです。

Hadoopは、さまざまなファイルタイプに対する多くのクエリをサポートする優れたファイルシステムと考えてください。これを念頭に置いて、ほとんどの人は生データをHadoopにダンプし、データパイプラインのステージングレイヤーとして使用します。ここで、データをかみ砕いて、verticaなどの他のシステムにプッシュできます。デカップリングに再開できるいくつかの利点があります。

そのため、 Hadoopはビッグデータ用の事実上のストレージプラットフォームになりつつあります。シンプルでフォールトトレラントであり、拡張性が高く、データのフィードと取得が簡単です。そのため、ほとんどのベンダーは、おそらくHadoopをインストールしている企業に製品をプッシュしようとしています。

score 3 · Accepted Answer

このソフトウェアの共同展開が効果的である理由は何ですか?

まず、両方のプラットフォームには多くの共通点があります。

ビッグデータの変換と分析のためにゼロから構築された専用
MPP アーキテクチャを活用してコモディティハードウェアでスケールアウトし、PB のデータから TB を管理できます。
管理オーバーヘッドの少ないネイティブ HA サポート

Hadoopは、データが多くの場合HDFSで利用可能であり、スキーマがなく、通常はバッチジョブで十分な最初の探索的データ分析に最適です。一方、Vertica は、既知の分析方法を繰り返し適用する必要がある定型化された対話型分析に最適です。入ってくるデータのバッチに。Vertica の Hadoop コネクタ

を使用する、ユーザーは 2 つのプラットフォーム間でデータを簡単に移動できます。また、単一の分析ジョブは、両方のプラットフォームの実行能力を活用する断片に分解できます。たとえば、Web 分析のユースケースでは、Web サーバーによって生成された JSON データは最初に HDFS にダンプされます。その後、map-reduce ジョブが呼び出されて、そのような半構造化データをリレーショナルタプルに変換し、その結果を Vertica にロードして、最適化されたストレージとその後の分析クエリによる検索を行います。

ビッグデータに対処する際に、Hadoop と Vertica が互いに補完し合う主な違いは何ですか。

インターフェイスと拡張性

Hadoop
Hadoop の map-reduce プログラミングインターフェイスは、開発者向けに設計されています。このプラットフォームは、多言語サポートと、強力なコミュニティによって提供される既製の分析ライブラリパッケージで高く評価されています。
Vertica
Vertica のインターフェースは、BI 業界標準 (SQL、ODBC、JDBC など) に準拠しています。これにより、技術者とビジネスアナリストの両方が分析ユースケースで Vertica を活用できるようになります。SDK は map-reduce パラダイムに代わるものであり、多くの場合、より高いパフォーマンスを提供します。
ツールチェーン/エコシステム

Hadoop
Hadoop と HDFS は、他の多くのオープンソースツールとうまく統合されます。既存の BI ツールとの統合が進んでいます。
Vertica
Vertica は、標準に準拠したインターフェイスにより、BI ツールと統合されます。Vertica の Hadoop コネクタを介して、Hadoop と Vertica の間でデータを並行して交換できます。
ストレージ管理

Hadoop
Hadoop は、HA のためにデフォルトで 3 回データを複製します。ロードバランシングのためにマシンクラスタ全体でデータをセグメント化しますが、データセグメンテーションスキームはエンドユーザーには不透明であり、分析ジョブを最適化するために微調整することはできません。
Vertica
Vertica のカラム圧縮は、多くの場合、その圧縮率で 10:1 を達成します。典型的な Vertica の導入では、HA のためにデータを 1 回レプリケートします。両方のデータレプリカは、より広い範囲のクエリを最適化するために異なる物理レイアウトを実現できます。最後に、Vertica は、ロードバランシングだけでなく、圧縮とクエリワークロードの最適化のためにもデータをセグメント化します。
実行時最適化

Hadoop
HDFS ストレージ管理は、分析ジョブを最適化する方法でデータをソートまたはセグメント化しないため、ジョブ実行時に、入力データをクラスター全体で再セグメント化および/またはソートする必要があり、大量のネットワークとディスクが発生します。入出力。

Vertica
多くの場合、データレイアウトは、データのロード中にターゲットクエリのワークロードに合わせて最適化されるため、クエリの実行時に最小限の量の I/O が発生します。その結果、Vertica は、バッチ指向のデータ処理ではなく、リアルタイム分析用に設計されています。
自動チューニング

Hadoop
map-reduce プログラムは手続き型言語 (Java、Python など) を使用します。これにより、開発者は分析ロジックをきめ細かく制御できますが、開発者はプログラムでジョブを慎重に最適化する必要もあります。
Vertica
Vertica Database Designer は、入力ワークロードを考慮した自動パフォーマンスチューニングを提供します。クエリは宣言型 SQL 言語で指定され、Vertica カラムオプティマイザーによって自動的に最適化されます。

score 0 · Accepted Answer

私はHadoopユーザーではありません（Verticaユーザー/ DBAだけです）が、答えは次のようなものになると思います。

-すでにHadoopを使用したセットアップがあり、集中的な分析分析のために「ビッグデータ」データベースを追加したいと考えています。

-非分析関数と処理にHadoopを使用し、分析にデータベースを使用したい。ただし、これは同じデータであるため、2つのフィードは必要ありません。

score 0 · Accepted Answer

Arnon の回答を少し拡張すると、Hadoop は消え去ることのない力として認識されており、多くの場合、開発者による草の根の取り組みを通じて、組織内で勢いを増しています。MPP データベースは、「国ごとの 1 時間あたりのトランザクション数は?」など、設計時にわかっている質問への回答に優れています。

Hadoop は、アナリストと開発者の間のどこかに住む新しいタイプの開発者のためのプラットフォームとして始まりました。この開発者は、コードを書くことができ、データ分析と機械学習も理解しています。MPP データベース (列であろうとなかろうと) は、データベースや大きすぎるデータセットで実行するにはあまりにも多くの CPU パワーを必要とするアルゴリズムを使用して、非構造化データを分析することが多いこのタイプの開発者にはあまり役に立ちません。一部のモデルの構築には大量の CPU パワーが必要なため、これらのアルゴリズムを従来のシャード DB で実行することは不可能です。

Hadoop を使用する私の個人的なパイプラインは通常、次のようになります。

Hadoop で多数の非常に大規模なグローバルクエリを実行して、データと変数の分布の基本的な感覚をつかみます。
Hadoop を使用して、関心のあるデータのみを含む小さなデータセットを構築します。
小さいデータセットをリレーショナル DB にエクスポートします。
リレーショナルデータベースで多数の小さなクエリを実行し、Excel シートを作成し、時には少し R を実行します。

このワークフローは、「アナリスト開発者」または「データサイエンティスト」に対してのみ機能することに注意してください。その他の走行距離は異なります。

あなたの質問に戻ると、私のような人々がツールを放棄したため、これらの企業は、Hadoop がビッグデータ、最もクールなスタートアップ、最先端のテクノロジーと同義語である時代に関連性を維持する方法を模索しています (これが得られるかどうかは、あなたが話し合うことができます)また、多くの Hadoop インストールは、組織の MPP 展開よりも 1 桁以上大きいため、より多くのデータが Hadoop に長期間保持されます。

score 0 · Accepted Answer

非構造化データは、その性質上、従来のデータウェアハウスへの読み込みには適していません。Hadoop mapreduce ジョブは、ログファイル (例) から構造を抽出し、分析のために DW に移植することができます。Hadoop はバッチ処理であるため、分析クエリ処理には適していません。したがって、hadoop を使用してデータを処理し、何らかの構造を取得してから、視覚化/SQL レイヤーを介してクエリを実行できるようにすることができます。

score 0 · Accepted Answer

Hadoop クラスターにフィードし、そのクラスターを使用してデータを Vertica/InfoBright データウェアハウスにフィードするポイントは何ですか?

要点は、ユーザーがクエリを起動して数分、場合によっては数時間待ってから回答を返すことを望まないということです。Hadoop はリアルタイムのクエリ応答を提供できません。これは、Cloudera の Impala と Hortonworks の Stinger の出現によって変化していますが。これらは、Hadoop 上のリアルタイムデータ処理エンジンです。

Hadoop の基盤となるデータシステムである HDFS を使用すると、データをまとめてクラスタ内のノードに分散できます。実際、HDFS は S3 のようなサードパーティのデータストレージに置き換えることもできます。要点: Hadoop は、-> ストレージ + 処理の両方を提供します。そのため、Hadoop をストレージエンジンとして使用し、必要に応じてデータをデータウェアハウスに抽出することができます。また、Hadoop を使用してキューブとマートを作成し、これらのマートを倉庫に保管することもできます。

しかし、スティンガーとインパラの出現により、これらの主張の強さは最終的に消えてしまいます。だから目を離さないでください。

score 0 · Accepted Answer

Greenplum DB のような大規模な並列データベースは、大量の構造化データの処理に優れています。Hadoop は、Web サイトなど、さらに大量の非構造化データの処理に優れています。

今日では、これら両方のタイプのデータを組み合わせて洞察を得るための興味深い分析が数多く行われています。したがって、これらのデータベースシステムが Hadoop と統合できることが重要です。

たとえば、MapReduce を使用して Hadoop クラスターでテキスト処理を行い、製品ごとのスコア値などを得ることができます。このスコアリング値は、データベースに既に格納されている他のデータまたは他のソースからデータベースにロードされたデータと組み合わせるために、データベースで使用できます。

hadoop - Vertica/InfoBright/GreenPlum などの列指向データベースが Hadoop で大騒ぎするのはなぜですか?

9 に答える 9

Related

Reference