問題タブ [azure-hdinsight]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - HDInsight ジョブの実行方法
HDInsight ジョブ アプローチに関するいくつかの質問。
1) HDInsight ジョブをスケジュールする方法は? それに対する準備ができている解決策はありますか?たとえば、私のシステムが、map/reduce ジョブを実行する必要がある多数の新しい入力ファイルを常に収集する場合、進行中の処理を実装するための推奨される方法は何ですか?
2) 価格の観点から、ジョブが実行されていない間は HDInsight クラスターを削除することをお勧めします。私が理解しているように、ジョブを毎日実行することにした場合、このプロセスを自動化する方法はありませんか? ここに何か推奨事項はありますか?
3) 同じファイルが複数回処理されないようにする方法はありますか? この問題をどのように解決しますか?
4) 私は間違っているかもしれませんが、すべての hdinsight ジョブには、リデューサーの結果を保存するための新しい出力ストレージ フォルダーが必要なようです。レポートが常にデータ セット全体で機能するように、これらの結果をマージするためのベスト プラクティスは何ですか?
azure - corr との HIVE 相関が正しくない
「corr」を使用して、HIVE の 2 つの行を関連付けようとしています。残念ながら、結果は完全に間違っています。PIG 関数を使用すると、結果は OK です。
HDInsight とスプレッドシートの両方でオプションを確認しました。
また、HortonsSandbox で同じクエリを実行すると、結果は正しいです。HDInsight の実装に何か問題があるはずです。クエリは簡単です。
何か案は?
azure - HDInsight サービスを ATS に使用できますか?
Xtrace と呼ばれるロギング システムがあります。このシステムを使用して、ログ、例外、トレースなどを SQL Azure データベースにダンプします。運用チームは、このデータをデバッグや SCOM の目的で使用します。SQL Azure の 150 GB の制限を考慮して、HDInsight (ビッグ データ) サービスの使用を考えています。
Azure Table Storage にデータをダンプした場合、HDInsight Service は ATS に対して機能しますか?
それとも、ブロブ ストレージに対してのみ機能します。つまり、ログ レコードはブロブ ストレージにファイルとして作成する必要がありますか?
- 最後の質問。上記で説明したシナリオを考慮すると、HDInsight サービスを使用するのに適しているでしょうか?
hadoop - HDInsight のインストール後に HadoopDashboard が作成されない
これは、HDInsight を開発マシンにインストールしようとして 2 日目です。数か月前にインストールしましたが、問題はありませんでした。ある日、動作が停止し、.\hadoop アカウントに関連する問題が原因でアプリ プールが開始されていないことがわかりました。
ということでアンインストールして再インストール。問題はそこから始まります。IIS に Hadoop ダッシュボードが表示されません。WebPIのオフラインモードでも試してみました。
オフライン モードで興味深いことに、MSSingleNodeInstaller.msi のダウンロード サイズは 3.8 MB でした。http://www.microsoft.com/web/webpi/4.5/toolsproductlist.xmlで HDINSIGHT-PREVIEW のサイズを確認したところ、約 30 MB でした。
インストール後、C:\HadoopFeaturePackSetup\Packages フォルダーにファイル HadoopWebApi-winpkg.zip および HadoopDashboard-winpkg.zip が含まれていない
ハードディスクのフォーマットや新しいマシンでの試行を必要としない解決策を教えてください。必要に応じてログをアップロードすることもできます。
前もって感謝します
喜び
hadoop - ジョブを送信するための Hadoop HDInsight .NET SDK API
HDInsight .NET Hadoop API を使用して、asp.net アプリケーションで Map Reduce ジョブを送信しています。
Microsoft.Hadoop.Mapreduce を使用します。
var hadoop = Hadoop.Connect();
var 結果 = hadoop.MapReduceJob.ExecuteJob ();
//これも試しましたが、同じ例外
//var result = hadoop.MapReduceJob.ExecuteJob(config);
ExecuteJob() 呼び出しが失敗し、実行時に例外がスローされます。この世界でこの通話を成功させた人はいますか? 入力パラメーターまたはオブジェクトを追加して Map() 関数をカスタマイズすることは可能ですか (Microsoft の MapperBase クラスで指定されている以外に)? Mapper メソッドと Reducer メソッド内のロジックはキャッシュ/データベースにアクセスできますか?
azure - UDF の Hdinsight pig デフォルト フォルダ
HDInsight を使い始めたばかりです。
Pig Grunt モードで UDF を登録したいのですが、それが機能しないか、Pig がロードするために jar ファイルをどこに置くべきかわかりません。
今私がしたことは、jar ファイルを lib フォルダー (C:\apps\dist\pig-0.9.3-SNAPSHOT\lib) と pig root フォルダー (C:\apps\dist\pig-0.9) に入れることです。 .3-SNAPSHOT) であり、私には何も機能しません。これを取得し続けてください:
応答は次のとおりです。
2013-10-27 09:28:53,466 [メイン] エラー org.apache.pig.tools.grunt.Grunt - エラー 101: ローカル ファイル 'elephant-bird-pig-3.0.0.jar' が存在しません。ログファイルの詳細: C:\apps\dist\hadoop-1.1.0-SNAPSHOT\logs\pig_1382864851131.log
この UDF を登録する場所と方法を教えてください。
ありがとうございました
c# - hdinsightの新しいハイブ接続が機能しない
hdinsight hadoopをローカルで使用しており、hdfsでmapreduceジョブを正常に実行した後、ハイブで試していますが、残念ながら、テーブルの作成時にハイブクエリを実行するとエラーが発生します。
ローカルでのみ実行しており、Azure を使用していないため、別のスタック ソリューションから次のコードを取得しました。
これは、処理のしばらく後に常に例外をスローします。例外は次のとおりです。
System.AggregateException: 1 つ以上のエラーが発生しました。---> System.NullReferenceException: オブジェクト参照がオブジェクトのインスタンスに設定されていません。System.Threading.Tasks.TaskAwaiter
1.GetResult() at Microsoft.Hadoop.Hive.HiveConnection.<ExecuteHiveQuery>d__2.MoveNext() --- End of inner exception stack trace --- at System.Threading.Tasks.Task.Wait(Int32 millisecondsTimeout, CancellationTo ken cancellationToken) at System.Threading.Tasks.Task.Wait() at ConsoleApplication1.Program.CreateActorsTable() in c:\Users\Administrator\ Documents\Visual Studio 2012\Projects\ConsoleApplication1\ConsoleApplication1\Pr ogram.cs:line 90 ---> (Inner Exception #0) System.NullReferenceException: Object reference not se t to an instance of an object. at System.Threading.Tasks.TaskAwaiter
1.GetResult() で Microsoft.Hadoop.Hive.HiveConnection.d__2.MoveNext()<---
Hadoop のログを確認したところ、次の結果が得られました。
java.io.IOException: org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java: 762) org.apache.hadoop.mapred.MapTask.run(MapTask.java:364) で org.apache.hadoop.mapred.Child$4.run(Child.java:266) で java.security.AccessController.doPrivileged( Native Method) の javax.security.auth.Subject.doAs(Subject.java:396) の org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1136) の org.apache.hadoop.mapred.Child. main(Child.java:260) 原因: java.net.URISyntaxException: インデックス 6 の権限に不正な文字: java.net の asv://{0}@{1}/6f8d3bc9-89a2-4e1d-9749-2805d31f05f0 .URI$Parser.fail(URI.java:2810) java.net.URI$Parser で。java.net.URI$Parser.parseHierarchical(URI.java:3059) の parseAuthority(URI.java:3148) java.net.URI$Parser.parse(URI.java:3015) の java.net.URI.( URI.java:577) org.apache.hcatalog.templeton.tool.TempletonUtils.addUserHomeDirectoryIfApplicable(TempletonUtils.java:227) org.apache.hcatalog.templeton.tool.TempletonControllerJob$LaunchMapper.run(TempletonControllerJob.java:152) ... 7 つ以上
なぜこれが失敗しているのかわからないので、誰かがこれを正しい方向に向けることができれば幸いです。