15

レポートを生成するために必要な mysql データがたくさんあります。ほとんどが過去のデータであるため、あまり変化しませんが、20 ~ 30 ギガバイトの容量があり、今後も大きくなることが予想されます。私は現在、いくつかの複雑なクエリを実行し、csv および Excel ファイルを出力する php スクリプトのコレクションを持っています。また、ブックマークされたクエリで phpMyAdmin を使用しています。それらを手動で編集してパラメーターを変更します。データの量が増えており、それにアクセスする必要がある人の数も増えているため、この状況を改善するために時間を割いています。

先日、データ ウェアハウジングについて読み始めましたが、これは私がしなければならないことに関連する分野のようです。私はいくつかの 良い 記事を読み、本を待っています. この種のシステムが何をするのか、何ができるのかを把握していると思います。

自分のデータのレポート システムを作成することは、常にやるべきことのリストにありましたが、最近まで、それは非常にニッチなプログラミング ベンチャーになるだろうと考えていました。データ ウェアハウジングが一般的なものであることを知ったので、開発を容易にするために利用可能な何らかのレポート/ウェアハウジング フレームが必要であると考えています。レポートなどをスケジュールしたりメールで送信したりするためのインターフェースやスクリプトを書くことは喜んで飛ばし、クエリを書いたり関係を設定したりすることに専念したいと思います。

私は主にランプの男でしたが、言語やプラットフォームを切り替えることは好きではありません。1 回限りのスクリプトはうまくスケーリングできないため、より堅牢なソリューションが必要です。

では、始めるのに適した場所はどこでしょうか?

4

7 に答える 7

8

{予算、ビジネス効用関数、時間枠} の範囲について、いくつかのポイントについて説明します。便宜上、リンク先のアーキテクチャの概念に従ってみましょう。

    ウィキペディアデータ ウェアハウス記事

  • 運用データベース レイヤー
    データ ウェアハウスのソース データ - 1 か所のみのデータ メンテナンス用に正規化

  • データ アクセス レイヤー
    ソース データを情報アクセス レイヤーに変換すること。
    データを抽出、変換、ウェアハウスにロードする ETL ツールは、この層に分類されます。

  • 情報アクセス層
      • レポートを容易にするデータ構造
          データはここでは保持されません。これは単にソース データを反映したものにすぎない
          ため、非正規化構造 (重複しているが体系的に導出されたデータを含む)   は       通常
          、ここで最も効果的       です       。より動的なスライス アンド ダイス アクセス方法



        レポートと分析のためにアクセスされるデータ、およびデータのレポートと分析のためのツールは、
        この層に分類されます。
        また、ウィキペディアの記事で後述する設計方法論に関する Inmon-Kimball の違い は、このレイヤーに関係しています。

  • メタデータ層 (自動化、組織化などを促進)

独自に展開する (ローエンド)
非常にわずかな費用で、非正規化構造の必要性を認識するだけで、非正規化構造を使用していない構造を購入して効率を上げることができます

球技に参加する(いくらかの出費が必要です)
すぐにプラットフォームのすべての機能を使用する必要はありません。
ただし、IMO では、成長することがわかっているプラ​​ットフォームを利用したいと考えており、競争が激しく統合されている BI 環境では、4 つのエンタープライズ メガベンダーの 1 つと思われます (私の意見)。

  • Microsoft (従業員 110 人の会社のプラットフォーム)
  • SAP
  • オラクル
  • IBM

    BiMarketState記事

私の会社はこの段階にあり、SQL Server Integration Services (SSIS) によって提供される ETL 機能の一部と、オープン ソースの別の使用方法を使用していますが、実際には、非正規化されたレポート構造である「データ アクセス レイヤー」で Talend 製品を必要とするライセンスが必要です。 (基本的な SQL Server データベースに完全に実装されています)、SQL Server Reporting Services (SSRS) を使用して、(スキルに応じて) 事前に指定されたレポートの作成を大幅に自動化します。SSRS の「レポート」は、SSRS エンジンを介して実行時にレンダリングされる単なる (スケーラブルな) XML 構成/仕様であることに注意してください。Excel ファイルへのエクスポートなどの選択は単純なオプションです。

真剣な取り組み(かなりの人間の取り組みが必要)
SQL Server Analysis Services のデータ マイニング/動的スライシング/ダイシング機能をまだ利用していないことに注意してください。私たちはそれに向けて取り組んでいますが、現在は「データ アクセス レイヤー」でのデータ クレンジングの品質を向上させることに重点を置いています。

これが、どこから始めればよいかを理解するのに役立つことを願っています。

于 2008-10-01T19:47:21.957 に答える
4

データウェアハウスの設計、実装、管理/運用のプロセスを作成しようとするツールは多数あり、それぞれに長所と短所があり、多くの場合、価格が大きく異なります。キンボールキャンプやインモンキャンプからのウォーセハウジングの原則について十分な知識を持っている場合は、カバーの下で常に最善を尽くします。

KalidoやWherescapeRED(非常に異なる方法で同様のことを行う)などのツールに加えて、ETLプラットフォームの多くは、SCDコンポーネントなどのロバの実装作業と系統追跡を適切にサポートしています。

これらすべてを職人であるあなたの手で使用するツールと見なすのが最善ですが、特定の簡単なことはさらに簡単に(または些細なことでも)、いくつかの難しいことは簡単になりますが、いくつかのことは私見の邪魔になります;)最初に方法論と原則を学び、それらをよく理解してください。そうすれば、キットバッグからどのツールをいつ適用するかがわかります...

于 2010-09-20T12:50:38.330 に答える
4

まず Kimball と Inmon をチェックして、特定の方法でデータ ウェアハウスに取り組みたいかどうかを確認する必要があると思います。特に、Kimball は、倉庫のモデリングと構築のための非常に優れたフレームワークを提示しています。

于 2008-10-01T19:48:18.507 に答える
4

Pentahoは、かなり包括的な製品スイートをまとめました。製品は「無料」ですが、識別情報をフォークすると、通常の大量販売に備えてください.

私たちはマイクロソフトのショップなので、悲しい終わりから終わりまでを実際に引き伸ばす機会はありませんでした.

于 2008-10-01T19:43:32.403 に答える
2

しばらく更新されていませんが、 ActiveWarehouseという優れた Data Warehousing/ETL Ruby パッケージがあります。

しかし、ニックが別の回答で言及したようなPentaho 製品をチェックします。それはあなたが持っているデータの量を簡単に処理する必要があり、あなたが想像していたよりも多くの方法でデータを細分化することができます.

于 2008-10-01T19:52:01.010 に答える
1

キンボールは、データウェアハウジングのより簡単な方法です。

データの移動にはInformaticaを使用しますが、デフォルトではインデックス作成などのDW機能は実行しません。
私は、DWツールとしてWherescape REDのアイデアを気に入っており、MSSQLのリンクサーバーを使用してETLツールの必要性を排除しています。

于 2008-10-22T23:08:41.403 に答える