10

25 Hz 浮動小数点データの 100 チャネルを格納するための可能な方法を特定しようとしています。これにより、年間 78,840,000,000 データポイントが発生します。

理想的には、このすべてのデータが、Sql Server レポート サービスなどの Web サイトやツールで効率的に利用できるようになります。リレーショナル データベースがこの規模の時系列を処理するのが苦手であることは認識していますが、説得力のある時系列固有のデータベースをまだ特定していません。

主な問題は、効率的なストレージのための圧縮ですが、簡単で効率的なクエリ、レポート、およびデータ マイニングも提供します。

  • このデータをどのように処理しますか?

  • このような量の時系列データを処理できる Sql Server の機能またはテーブル設計はありますか?

  • そうでない場合、巨大な時系列を効率的に処理するための Sql サーバー用のサードパーティの拡張機能はありますか?

  • そうでない場合、そのようなデータの処理に特化し、Sql、.Net、および Sql Reporting サービスを介して自然なアクセスを提供する時系列データベースはありますか?

ありがとう!

4

8 に答える 8

1

Infobright Community または Enterprise Edition をチェックできると思います。これは、分析目的で設計された列指向のストレージであり、大容量 (現在、既存のインストールでは最大 30 TB と言われています) のデータと優れた圧縮率を備えています。

データ ローダーも非常に高速で、ETL ツール (Talend、ケトルなど) 用のコネクタが存在します。

Community エディションは GNU GPL 条件の下で無料で利用できますが、ネイティブ ローダー経由でのみデータを追加できます。Enterprise Edition は、DML を介した単一行による追加/更新をサポートします。

MySQL 接続をサポートするすべてのツールで使用できるというもう 1 つの利点。

列方向を使用すると、必要なすべての集計レベル (日付、週番号、月、および四半期を使用) で日付コンポーネントの列を追加して、パフォーマンスを向上させることができますが、それがなくても問題ありません。

R を mysql インターフェイス経由のデータ分析ツールとして使用し、python (numpy) スクリプトをある種の ETL として使用して、分析目的で比較的少量の (まだ) ビジネス トランザクション データに使用します。

短所: 公式の utf-8 サポートの欠如、関数値による集計 (select month(date from ...)) はまだ実装されていません (計画: 2009 年 7 月、AFAIK) が、私はこれに ETL を使用しています。

リンク: http://www.infobright.org/Download/ICE/

于 2009-06-15T19:59:45.747 に答える
1

たとえば、日付でテーブルを分割して、データを216,000,000それぞれ小さな行に分割します。

1 年全体の統計が必要ない場合、これはインデックスによって簡単に提供できます。

たとえば、「与えられた時間の平均を教えてください」のようなクエリは数秒で済みます。

于 2009-06-04T16:51:10.543 に答える
1

データ系列へのランダム アクセスが必要だと思います。降雨データ テーブルに既に使用したアイデアは、データセット全体を小さな部分に細分化して、数分または 1 分ごとにエントリを作成することです。次に、このまだ大きな配列をデータベースからポップして、必要な部分に直接アクセスすると、時間オフセットとバイトオフセットの間の直接的な相関関係を見つけることができます。

于 2009-06-04T17:02:39.970 に答える
1

説明している機能セットは、分析キューブ用です。技術の世界のその部分にいる場合は、Microsoft の分析サービスをチェックしてください。

http://msdn.microsoft.com/en-us/library/ms175609(SQL.90).aspx

説明しているモデルに関しては、時間ディメンションを使用して Kimball モデル (標準のデータ ウェアハウジング モデル) を実装する必要があります。しばらく前に、メディアログファイルを保存するこの問題に遭遇しました。

幸運を。

于 2009-06-04T17:07:51.507 に答える
0

http://opentsdb.netのような時系列データベースを検討しましたか?

于 2011-10-25T18:56:43.803 に答える
0

あなたが持っている

A. 365 x 24 x 100 = 1 時間あたり 876,000の信号(すべてのチャネル) を年間

B. 3600 * 25 = 90,000 データポイントを含む各信号

データをシグナルごとに 1 行として保存し、現在サポートされているユース ケースの概要/クエリ統計の列と、blob将来のユース ケースの圧縮されたシグナルの列を使用するとどうなりますか?

于 2009-06-05T15:40:12.343 に答える