問題タブ [azure-sqldw]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - Azure SQL DW データの読み込みに時間がかかる
外部テーブルから SQL DW 内部テーブルにデータを読み込もうとしています。BLOB ストレージに圧縮形式のデータ ストアがあり、外部テーブルは BLOB ストレージの場所を指しています。
サイズが約 22GB の約 24 個のファイルがあり、より大きなリソース クラスのサービス/ユーザー アカウントを使用して、外部テーブルから 300 DWU の内部テーブルにデータをロードしようとしています。
ステートメントへの挿入 (非常に簡単です) が 10 時間以上実行されています。insert into Trxdata.Details_data select * from Trxdata.Stage_External_Table_details_data;
以下のステートメントも試してみましたが、これも10時間以上実行されています。CREATE TABLE Trxdata.Details_data12 WITH (DISTRIBUTION = ROUND_ROBIN) AS SELECT * FROM Trxdata.Stage_External_Table_details_data;
なるほど - 両方の SQL が "sys"."dm_pdw_exec_requests" で ACTIVE ステータスで実行されています [考えていましたが、同時実行スロットの問題であり、実行する同時実行スロットがありませんが、そうではありません]
そして、DWUを増やしたりスケールアップしたりして、パフォーマンスが向上することを望んでいました。しかし、portal.azure.com で DWU の使用状況を見てみると、DWU の使用状況グラフが過去 12 時間で <50DWU を示しているため、DWU を増加させることはできません。
それで、私は理解しようとしています-どうすれば見つけることができますか-何がそんなに時間がかかっているのか、どうすればデータロードのパフォーマンスを向上させることができますか?
azure-sqldw - SQL データ ウェアハウス DWU のベンチマーク
CTASステートメントに基づいて、読み取りと書き込みに対するDWUの影響をベンチマークするための簡単な分析をまとめています。
クエリは、1.7b 行のテーブルを 993k 行のテーブルに集約しています。ソース テーブルと宛先テーブルはラウンド ロビン分散です (ソースは長期間 RR ではなく、HASH に移動します) クエリはおおよそ次のとおりです。
sys.dm_pdw_dms_workers DMV を介してパフォーマンスを分析し、type=DIRECT_READER と type=WRITER の両方について、各ディストリビューションの平均 bytes_per_second を取得しています。
私のプロセスは、DWU を変更し、CTAS を削除して再作成し、DMV のデータを分析することです。
DWU を増やしても、一貫したパフォーマンスの向上が見られません。私の目標は、計算量の増加の明確な証拠を探すことですが、DWU が大きいほど遅くなり、DWU が小さい場合よりも返される bytes_per_sec が少なくなることがあります。
スケーリング プロセスを経ずに、同じ DWU で CTAS ステートメントを 2 回実行した場合、2 回目以降の実行は 10 倍近く速く実行されます。
1 つのテーブルに基づくプロセスのヘルプを探しており、現時点ではデータの移動/結合を方程式から除外したいと考えています。
azure - Azure SQL データ ウェアハウスからの Hadoop ORC テーブルのクエリ
Azure HDInsight で作成された ORC テーブルを Azure SQL Data Warehouse から読み取る際に問題が発生しています。以下のシーケンスを参照して、HDInsight インスタンスと Azure SQL データ ウェアハウスを設定しました。
- 以下の内容のテキストファイル(Sales.txt)を作成しました。
20150614 | 1 | 10.50
20150618 | 1 | 100.75
20150924 | 1 | 89.75
20160214 | 2 | 10456.90
20150922 | 3 | 34.70
20151021 | 3 | 43.70 20151225
| 3 |
3 | 65.90 20150608|5|398.90 20150929|5|981.80 20151225|5|482.80 20151231|5|289.60 20160214|5|688.50 20160531|5|682.80
次に、Azure で HDInsight クラスターを作成しました
データベースを作成しました
hadoopdb
次のクエリを使用して、そのデータベースに外部テーブルを作成しました
/li>次のクエリを使用してデータをロードしました
LOAD DATA INPATH '/Sales.txt' INTO TABLE hadoopdb.salestxt;
次に、次のスクリプトで内部 ORC テーブルを作成しました
/li>次のクエリでORCテーブルにデータを移動しました
INSERT OVERWRITE TABLE hadoopdb.salesorc SELECT * FROM hadoopdb.salestxt
次のクエリを実行すると、Hive エディターに結果が表示されます
select * from hadoopdb.sales
Azure SQL データ ウェアハウスに戻り、SSMS で次のクエリを使用してデータ ソースを作成しました。
);
以下を使用して外部ファイル形式を作成しました
/li>作成されたスキーマ
[hdp]
以下のスクリプトで EXTERNAL TABLE を作成しようとしています
/li>
ただし、このクエリは次のエラーで失敗します
メッセージ 105002、レベル 16、状態 1、行 1 EXTERNAL TABLE アクセスは、指定されたパス名 '/Sales.txt/' が存在しないため失敗しました。有効なパスを入力して、再試行してください。
「myclustercontainer@mystorageaccount.blob.core.windows.net/Sales.txt/Sales.txt」などの LOCATION のさまざまな組み合わせを試しました
Sales.txt ファイルは、場所 'myclustercontainer@mystorageaccount.blob.core.windows.net/Sales.txt/Sales.txt' のストレージ アカウントに存在します。
何か不足していますか?
azure - Azure データ ウェアハウス データベース ストレージ
私は Azure Data Warehouse を初めて使用するので、データが実際に格納されている場所に関する記事を読んで少し戸惑いました。db テーブルまたは Azure BLOB ストレージのデータを格納するのは計算ノードですか?
ありがとう
data-warehouse - Azure SQL データウェア ハウスでブロックされたクエリを見つける方法は?
Azure データ ウェアハウスでブロックされたクエリを確認する方法はありますか? 私の監視ツールでは、朝のセッション中に 2 つのブロックされたクエリが表示されます。ブロックしているクエリを見つける必要があります...
azure - 複数のデータ ソースから Azure DW に同時にデータをアップロードできますか
単一のパイプラインを使用して、複数のデータ ソースから Azure SQL DataWarehouse に同時にデータを取得できますか?
azure - Azure Datawarehouse のすべての DWU でルックアップ テーブルをレプリケートする
私は Azure Data Warehouse を使用していますが、かなり慣れていません。クラスターには 60 DWU があります。10 行しかないルックアップ テーブルを作成し、1 つだけでなく 60 の DataWarehouse ユニットすべてで複製または使用できるようにしたいと考えています。どうすればそれを達成できますか?
上記のコードは機能していません。エラーで失敗します:Option 'REPLICATE' is not supported in this version of SQL Server.