問題タブ [azure-data-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2468 参照

azure - webhdfs API を使用して Azure データレイクにアクセスする方法

Azure でのデータレイク サービスの評価はまだ始まったばかりです。レイクを作成しました。ポータルを介して、サービスの 2 つのパブリック URL を確認できます。(1 つは https:// スキーム、もう 1 つは adl:// スキーム)

データレイクのドキュメントには、実際には webHDFS REST API と ADL の 2 つのインターフェイスがあると記載されています。したがって、https:// スキームによって wehHDFS インターフェイスが取得されると想定しています。ただし、このインターフェイスの使用に関する Azure の情報はこれ以上見つかりません。

Web ブラウザーと curl を使用して、指定された https:// URL を突っ込んでみました。サービスが応答しています。データレイクは Hadoop のインスタンスであるため、応答は期待どおりの JSON です。しかし、[ポータル経由でレイクにアップロードした] ファイルにアクセスできないようです。

たとえば、"/foo.txt" に対して GET を実行すると、ResourceNotFound というエラーが返されます。

典型的な Hadoop HDFS 構文「/webhdfs/v1/foo.txt」を使用して GET を実行すると、エラー、AuthenticationFailed という応答が返されます。追加のテキストは、欠落しているアクセス トークンを示します。これはより有望に思えます。ただし、そのようなアクセス トークンの生成については何も見つかりません。

ADL インターフェイス、.NET、および Visual Studio の使用に関するドキュメントがいくつかありますが、最初はこれが必要なわけではありません。

どんな助けでも大歓迎です!

0 投票する
1 に答える
102 参照

azure-data-lake - データ レイク分析は、リレーショナル データベースの作成をサポートしていますか

データレイク分析はデータベースの作成をサポートしているようですが、リレーショナル データベースも作成できますか?

0 投票する
1 に答える
782 参照

c# - 数時間実行した後、Azure Data Factory でカスタム アクティビティが失敗しました

オンデマンド HDInsight クラスターを使用して、Azure Data Factory でカスタム .Net アクティビティを実行していました。アクティビティは、Azure Blob に格納されている XML ファイルを処理し、それらを Azure Data Lake Store に移動します。28 時間の実行後に次のエラーで失敗しました。

「アクティビティのエラー: リクエストは中止されました: リクエストはキャンセルされました..」

このアクティビティの実行に使用できるログ ファイルはありませんでした。上記のエラーは、問題をトラブルシューティングするのに十分ではありません。この問題のトラブルシューティング方法を教えてください。

0 投票する
1 に答える
1130 参照

azure-active-directory - Azure Data Lake を使用した WebHDFS の承認ヘッダー

Azure Data Lake で WebHDFS を使用しようとしています。Microsoft のドキュメントによると、従うべき手順は次のとおりです。

  • Azure Management Services へのキーと委任されたアクセス許可を使用して、Azure AD で新しいアプリケーションを作成します。
  • client_id、tenant_id、秘密鍵を使用して、OAUTH2 エンドポイントにリクエストを送信します

    curl -X POST https://login.microsoftonline.com/<TENANT-ID>/oauth2/token \ -F grant_type=client_credentials \ -F resource=https://management.core.windows.net/ \ -F client_id=<CLIENT-ID> \ -F client_secret=<AUTH-KEY>

成功すると、「access_token」オブジェクトを含む JSON が返されます。このコンテンツは、ヘッダーを追加して、後続の WebHDFS リクエストに含める必要があります。

<content of "access_token">「access_token」オブジェクトの長い文字列はどこにありますか。

そのヘッダーを含めたら、ディレクトリを一覧表示するなどの WebHDFS 呼び出しを行うことができるはずです。

これらすべての手順を実行した後、上記の curl コマンドを実行してディレクトリを一覧表示すると、HTTP 401 エラーが発生します。

体と

何が問題なのか誰か知っていますか?

トークンをjwt.ioに貼り付けましたが、有効です (署名をチェックしていません)。内容は次のようなものです。

0 投票する
1 に答える
4022 参照

azure - Google の BigQuery と Azure データ レイクの U-SQL の比較

Google のビッグ クエリと Azure データ レイク U-SQL の違いまたは長所と短所を理解しようとしています。どちらが良いですか?大きな違いが何であるかを徹底的に検索しましたが、見つけることができませんでした。

0 投票する
1 に答える
1933 参照

azure-data-lake - U-SQL での文字列の最大許容サイズは?

CSV ファイルの処理中に、文字列の最大サイズに関するエラーが表示されます。「文字列サイズが最大許容サイズを超えています」。

0 投票する
1 に答える
194 参照

azure-data-lake - U-SQL クエリ オプティマイザーの動作

さて、これが何をしているのかです。次のことを行う U-SQL スクリプトがあります。

ステップ 1. レコードを txn テーブル 'A' に挿入し、「PROCESSING STARTED」と言い、ステップ 2 の開始を記録します。 4. レコードを txn テーブル 'A' に挿入し、「PROCESSING FINISHED」と言い、ステップ 2 の実行が成功したことを記録します。

上記をコーディングしたとき、上記の手順が上記の順序で実行されることを望んでいました。驚いたことに、そうではありませんでした。代数を詳しく調べたところ、クエリ オプティマイザーがすべてのタスクをシャッフルし、以下のように実行することがわかりました。

  1. 全抽出
  2. すべての分割、集計、パーティション
  3. すべての書き込み (挿入先のテーブルが 2 つあることに気付いた場合)

ここでの質問は、 Step 2 、 Step 3 が Step 1 の後にのみ実行されるようにするにはどうすればよいですか? ステップ4については今のところ気にしていません。以下のように実行することもできますが、他のオプションがあることを望んでいました。ジョブ 1 (ステップ 1) ジョブ 2 (ステップ 2、3) ジョブ 3 (ステップ 4)

Plsはあなたが助けることができますか?