問題タブ [azure-data-lake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - webhdfs API を使用して Azure データレイクにアクセスする方法
Azure でのデータレイク サービスの評価はまだ始まったばかりです。レイクを作成しました。ポータルを介して、サービスの 2 つのパブリック URL を確認できます。(1 つは https:// スキーム、もう 1 つは adl:// スキーム)
データレイクのドキュメントには、実際には webHDFS REST API と ADL の 2 つのインターフェイスがあると記載されています。したがって、https:// スキームによって wehHDFS インターフェイスが取得されると想定しています。ただし、このインターフェイスの使用に関する Azure の情報はこれ以上見つかりません。
Web ブラウザーと curl を使用して、指定された https:// URL を突っ込んでみました。サービスが応答しています。データレイクは Hadoop のインスタンスであるため、応答は期待どおりの JSON です。しかし、[ポータル経由でレイクにアップロードした] ファイルにアクセスできないようです。
たとえば、"/foo.txt" に対して GET を実行すると、ResourceNotFound というエラーが返されます。
典型的な Hadoop HDFS 構文「/webhdfs/v1/foo.txt」を使用して GET を実行すると、エラー、AuthenticationFailed という応答が返されます。追加のテキストは、欠落しているアクセス トークンを示します。これはより有望に思えます。ただし、そのようなアクセス トークンの生成については何も見つかりません。
ADL インターフェイス、.NET、および Visual Studio の使用に関するドキュメントがいくつかありますが、最初はこれが必要なわけではありません。
どんな助けでも大歓迎です!
azure-data-lake - データ レイク分析は、リレーショナル データベースの作成をサポートしていますか
データレイク分析はデータベースの作成をサポートしているようですが、リレーショナル データベースも作成できますか?
c# - 数時間実行した後、Azure Data Factory でカスタム アクティビティが失敗しました
オンデマンド HDInsight クラスターを使用して、Azure Data Factory でカスタム .Net アクティビティを実行していました。アクティビティは、Azure Blob に格納されている XML ファイルを処理し、それらを Azure Data Lake Store に移動します。28 時間の実行後に次のエラーで失敗しました。
「アクティビティのエラー: リクエストは中止されました: リクエストはキャンセルされました..」
このアクティビティの実行に使用できるログ ファイルはありませんでした。上記のエラーは、問題をトラブルシューティングするのに十分ではありません。この問題のトラブルシューティング方法を教えてください。
azure-active-directory - Azure Data Lake を使用した WebHDFS の承認ヘッダー
Azure Data Lake で WebHDFS を使用しようとしています。Microsoft のドキュメントによると、従うべき手順は次のとおりです。
- Azure Management Services へのキーと委任されたアクセス許可を使用して、Azure AD で新しいアプリケーションを作成します。
client_id、tenant_id、秘密鍵を使用して、OAUTH2 エンドポイントにリクエストを送信します
curl -X POST https://login.microsoftonline.com/<TENANT-ID>/oauth2/token \ -F grant_type=client_credentials \ -F resource=https://management.core.windows.net/ \ -F client_id=<CLIENT-ID> \ -F client_secret=<AUTH-KEY>
成功すると、「access_token」オブジェクトを含む JSON が返されます。このコンテンツは、ヘッダーを追加して、後続の WebHDFS リクエストに含める必要があります。
<content of "access_token">
「access_token」オブジェクトの長い文字列はどこにありますか。
そのヘッダーを含めたら、ディレクトリを一覧表示するなどの WebHDFS 呼び出しを行うことができるはずです。
これらすべての手順を実行した後、上記の curl コマンドを実行してディレクトリを一覧表示すると、HTTP 401 エラーが発生します。
体と
何が問題なのか誰か知っていますか?
トークンをjwt.ioに貼り付けましたが、有効です (署名をチェックしていません)。内容は次のようなものです。
azure - Google の BigQuery と Azure データ レイクの U-SQL の比較
Google のビッグ クエリと Azure データ レイク U-SQL の違いまたは長所と短所を理解しようとしています。どちらが良いですか?大きな違いが何であるかを徹底的に検索しましたが、見つけることができませんでした。
azure-data-lake - U-SQL での文字列の最大許容サイズは?
CSV ファイルの処理中に、文字列の最大サイズに関するエラーが表示されます。「文字列サイズが最大許容サイズを超えています」。
azure-data-lake - U-SQL クエリ オプティマイザーの動作
さて、これが何をしているのかです。次のことを行う U-SQL スクリプトがあります。
ステップ 1. レコードを txn テーブル 'A' に挿入し、「PROCESSING STARTED」と言い、ステップ 2 の開始を記録します。 4. レコードを txn テーブル 'A' に挿入し、「PROCESSING FINISHED」と言い、ステップ 2 の実行が成功したことを記録します。
上記をコーディングしたとき、上記の手順が上記の順序で実行されることを望んでいました。驚いたことに、そうではありませんでした。代数を詳しく調べたところ、クエリ オプティマイザーがすべてのタスクをシャッフルし、以下のように実行することがわかりました。
- 全抽出
- すべての分割、集計、パーティション
- すべての書き込み (挿入先のテーブルが 2 つあることに気付いた場合)
ここでの質問は、 Step 2 、 Step 3 が Step 1 の後にのみ実行されるようにするにはどうすればよいですか? ステップ4については今のところ気にしていません。以下のように実行することもできますが、他のオプションがあることを望んでいました。ジョブ 1 (ステップ 1) ジョブ 2 (ステップ 2、3) ジョブ 3 (ステップ 4)
Plsはあなたが助けることができますか?