問題タブ [vldb]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - 200 億行/月 - Hbase / Hive / Greenplum / What?
データ ウェアハウス システムの適切なソリューションを選択するために、あなたの知恵を活用したいと思います。問題をよりよく理解するための詳細を次に示します。
データは、1 つの BIG ファクトと最大 15 のディメンションを持つスター スキーマ構造で編成されます。
1 か月あたり 200 億のファクト行
10 次元で 100 行 (ある程度の階層)
5 次元で数千行
2 次元で ~200K 行
2 つの大きな次元で 50M ~ 100M 行
この DB に対して実行される 2 つの典型的なクエリ
dimq の上位メンバー:
タプル対策:
質問:
- そのようなクエリを実行するのに最適なプラットフォームは何ですか
- 必要なハードウェアの種類
どこでホストできますか (EC2?)
(現時点では、インポートと読み込みの問題は無視してください)
Tnx、
ハガイ。
sql-server - SQL Server VLDB のサイズ
最小 1 TB ですか、それとも 2 ですか?
私の現在のクライアントは 1 TB 未満であり、サイズが原因で再分類の危機に瀕していると書いているかどうかを知りたかったので、これらの問題の BOATLOAD を考慮する必要があります。
:)
ティア
sql-server - 大規模なデータベーステーブルのSQLServer自動パーティション化
私は数千万行のデータベーステーブルを扱っており(時間の経過とともに数億行になる可能性があります)、行数が増えてもパフォーマンスを安定させるためにデータベースパーティショニングを実装することを検討しています。これが私がやりたいことです:
動物を保管するテーブルがあるとしましょう。フィールドの1つは、AnimalType(つまり、Bird / Fish / Cat / Dog)です。クエリの99%は1つのAnimalTypeにのみ関連し、テーブルにはほぼ同じ量のAnimalType(つまり、1000匹の魚、1000羽の鳥、1000匹の犬)があるため、各AnimalTypeを個別のパーティションにします。パーティションは素晴らしく、均等に分散している必要があります。ただし、動物の種類はたくさんあるので、AnimalTypeごとに数百のパーティションを手動で作成したくないので、新しいAnimalTypeを入力するたびに、新しいパーティションを作成する必要があります。
したがって、私が望むのは、SQLServerにAnimalTypeに基づいてパーティションを作成するように指示する方法です。AnimalType用のパーティションがすでに存在する場合は、そのパーティションを使用します。存在しない場合、SQLServerは自動的に新しいパーティションを作成します。
簡単そうに聞こえますが、これを行う方法を見つけることができないようです。出来ますか?
あるいは、テーブルへのアクセス速度を素晴らしく高速に保つための他の方法は何ですか?古いレコードをHistoryスタイルのテーブルに移動するなど、手動でデータをより多くのテーブルに移動するだけのことは避けたいと思います。クエリで完全なデータセットのデータが必要になる可能性があるため、実際にはそうはなりません。ヘルプ。私はすでにいくつかの基本的なインデックスを持っており、これは非常に役立ちます。
sql-server - 膨大なテーブルの ALTERING 列の影響 NOT NULL から NULL
SQL Server 2005: 2 億 4000 万行のテーブル。列の要件が NOT NULL から NULL に変更されました。
このような大きなテーブルを処理するときに ALTER ステートメントを使用することは、一般的に悪い習慣です (多くの場合、不可能です) が、可能であれば、テーブルの再構築を回避しようとします。
2,000 万行を含む dev テーブルに対して ALTER ステートメントをテストしたところ、ステートメントは 1 秒未満で正常に実行されました。
質問: これは巨大な生産テーブルに対して機能するように見えます... しかし、経験に基づいてリスクや影響を指摘できる人はいますか?
どうもありがとう。
database - TimeSeries データベースの推奨事項
できればティック情報を保存するためのオープンソース。
com - com / atl dllプロジェクトにビジュアルリークディテクタ(vld)を使用するにはどうすればよいですか?
ActiveXdllプロジェクトにvld.hファイルをインクルードしました。Visual Studio 2008からプロジェクトをコンパイルしようとすると、次のエラーが発生します。
1>出力の登録...
1>プロジェクト:エラーPRJ0050:出力の登録に失敗しました。レジストリを変更するための適切な権限があることを確認してください。
com / ActiveX dllプロジェクトにビジュアルリークディテクタを使用するにはどうすればよいですか?
hadoop - Hadoop 上の列ストア?
Hadoop の上に構築された Vertica に似た列ストアはありますか? HBase はスパース マトリックス ストアであり、Vertica のようなもので達成できる圧縮レベルを取得できないため、HBase については話していませんか?
ありがとう
sql - さまざまなトランザクション サイズでの RBAR とセットベースの処理のパフォーマンス
特にテーブルが大きくなったり、多くの行を更新する必要がある場合は、テーブルのセットベースの処理が常に RBAR よりも優先されるべきであるというのが従来の知恵です。
しかし、それは常に成り立ちますか?私はさまざまなハードウェアで、同じワークロードをより小さなチャンクに分割すると直線的に増加する一方で、セットベースの処理では時間消費が指数関数的に増加する状況をかなり多く経験しました。
完全に間違っていることが証明されるのは興味深いことだと思います-明らかな何かが欠けている場合-または、そうでない場合は、ワークロードを分割することがいつ努力する価値があるかを知ることは非常に良いでしょう. その後、どの指標を使用するかを決定するのに役立つ指標を特定します。個人的には、次のコンポーネントが興味深いと期待しています。
- ワークロードのサイズ
- ログファイルのサイズと増大
- RAMの量
- ディスクシステムの速度
他の?CPU/CPU コアの数?
例 1: 1,200 万行のテーブルがあり、各行の 1 つまたは 2 つのフィールドを別のテーブルのデータで更新する必要があります。これを 1 回の簡単な更新で行うと、テスト ボックスで 30 分ほどかかります。しかし、これを 12 個のチャンクに分割すると、約 24 分で完了します。
例 2: 実質的にすべての行に対していくつかの計算を行う必要がある 2 億行以上のテーブルです。フルセットをオールインワンで実行すると、私のボックスは 3 日間稼働し、それでも完了しません。まったく同じ SQL を実行する単純な C# を作成し、トランザクション サイズを一度に 10 万行に制限するために WHERE 句を追加すると、約 14 時間で完了します。
記録のために:私の結果は、同じデータベースからのもので、同じ物理ハードウェア上にあり、統計が更新され、インデックスに変更はなく、単純な復旧モデルなどがあります。
いいえ、「真の」RBAR を試したことはありませんが、実際にどれくらいの時間がかかるかを確認するためだけに試したほうがよいでしょう。
oracle - Oracle11gの手順を最適化する
日付、オブジェクト名、およびコードで編成された非常に大きなテーブルで、一連のトランザクションの最初、最後、最大、および最小の価格を見つける手順があります。取引量の合計も必要です。テーブルには約30億行あり、この手順の実行には何日もかかります。その時間をできるだけ短縮したいと思います。トランステーブルの個別のフィールドにインデックスがあり、クエリの選択部分の説明プランを見ると、インデックスが使用されています。私は別のアプローチについての提案を受け入れています。Oracle11gR2を使用しています。ありがとうございました。
php - 非常に大規模なMySQLデータベースのパフォーマンスを最適化する方法は?
私はPHP-MySQLでWebアプリケーションに取り組んでいます。私はデータベースアクセス用のMySQLiAPIです。私は大きく2つの質問があります:
- MySQLデータベースのパフォーマンスを向上させるにはどうすればよいですか?
- MySQLは、大規模なエンタープライズレベルのデータベースにどの程度安全で適切ですか?
質問1については、次の点に注意してください。
データベースの主要な中央テーブルは、毎年約50万から100万行を受け取ると予想されます。これらのテーブルからの取得を高速化するにはどうすればよいですか?私はすでにそれらのテーブルにインデックスを作成しました。
アーカイブされた行を新しいテーブルに移動し、現在使用されている行のみをメインテーブルに保持しています。ただし、いつでも、メインテーブルには非常に多くの行があります。
前もって感謝します