6

またはが以下の目的に適しているかどうNetezzaかを理解したい:Hadoop

  • 1 GB を超えるかなりのサイズのフィード ファイルを複数のオンライン ソースから取得します。

  • フィードからさらに情報をクリーンアップ、フィルタリング、変換、計算します。

  • データ ウェアハウス キューブが行う方法と同様に、さまざまなディメンションでメトリックを生成します。

  • SQL またはその他の標準的なメカニズムを使用して、webapps が最終的なデータ/メトリックに高速にアクセスできるようにします。

4

4 に答える 4

5

仕組み:
データがアプライアンスにロードされると、各テーブルが 108 個の SPU にインテリジェントに分割されます。
通常、ハードディスクはコンピュータの最も遅い部分です。これらの 108 が一度に回転し、テーブルの小さな部分をロードすると想像してください。これが、Netezza が 1 時間あたり 500 ギガバイトの読み込み時間を達成する方法です。
テーブルの一部がロードされ、各 SPU (集積回路カード上のコンピューター) に格納された後、各列が分析され、最小値や最大値などの記述統計が取得されます。これらの値は、インデックスの代わりに 108 個の SPU のそれぞれに格納されます。インデックスは作成、更新に時間がかかり、不要なスペースを消費します。
インデックスを作成する必要のない環境を想像してみてください。データをクエリするときは、アプライアンス内のマスター コンピュータが SPU にクエリを実行して、必要なデータが含まれている SPU を確認します。
適切なデータを含む SPU のみが情報を返すため、ネットワークを介して Business Intelligence/Analytics Server に移動する情報は少なくなります。データの結合に関しては、さらに優れています。
アプライアンスは、キーによって複数の SPU にまたがる複数のテーブルにデータを分散します。各 SPU には、複数のテーブルの部分データが含まれています。各テーブルの一部を各 SPU でローカルに結合し、ローカルの結果のみを返します。すべての「ローカル結果」は、キャビネット内で内部的に組み立てられ、クエリ結果としてビジネス インテリジェンス/分析サーバーに返されます。この方法論は、スピードの話にも貢献しています。
これらすべての鍵は、「ネットワーク上でのデータの移動を減らす」ことです。アプライアンスは、必要なデータのみを、組織の 1000/100 MB ネットワークを介してビジネス インテリジェンス/分析サーバーに返します。
これは、通常、Business Intelligence/Analytics ソフトウェアがデータベースからほとんどのデータを抽出して独自のサーバーで処理を行う従来の処理とは大きく異なります。データベースは、必要なデータを決定する作業を行い、より小さなサブセットの結果をビジネス インテリジェンス/分析サーバーに返します。
バックアップと冗長性
ほぼ 100% のアップタイムを実現するためにデータとシステムがどのようにセットアップされているかを理解するには、内部設計を理解することが重要です。データの保存と検索には、各 400 ギガバイト ディスクの外側の最速の 3 分の 1 の部分を使用します。ディスクの 3 分の 1 には記述統計が格納され、残りの 3 分の 1 には他の SPU のホット データ バックアップが格納されます。各アプライアンス キャビネットには、108 個の SPU のいずれかの自動フェイルオーバー用に 4 個の追加 SPU も含まれています。
から取ったhttp://www2.sas.com

于 2011-10-28T01:56:35.203 に答える
3

バッチ ETL プロセスとそれ以降の SQL リクエストの設計を分離することを検討します。決定を評価するには、次の数値が重要だと思います。

a) 毎日どのくらいの行データを処理したいですか?
b) システムに保存する行データの量は?
c) RDBMS データセットのサイズ。
d) どのような種類の SQL を使用する予定ですか? つまり、アドホック SQL やよく計画されたレポートはありますか。別の質問 - 2 つの大きなテーブルの間に jons が必要ですか。

上記の質問に答えることで、より良い答えを出すことができます。たとえば、非常に大きなテーブルの結合が必要な場合は Netezza をオプションとして検討し、テラバイトのデータを保存する必要がある場合は Hadoop を検討します。

于 2010-12-30T10:35:33.477 に答える
2

あなたの回答から、Netezza があなたのニーズにより適しているように思われます。アドホック クエリを非常にうまく処理し、最新バージョンのソフトウェアにはロールアップとキューブのサポートが組み込まれています。また、Netezza はテラバイト規模のデータで動作するため、利用可能なデータを十分に処理できるはずです。

于 2011-01-04T01:19:34.520 に答える