問題タブ [azure-hdinsight]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - HDInsight Hadoop 用のこの Java の何が問題になっていますか?
Hadoopで実行しようとすると、以下のJavaが機能しない理由を見つけようとしています。
エラーは次のとおりです。
c:\hadoop-training\tutorial02-jobtracker>hadoop jar PageStat.jar PageStat jobtracker/input/visit_5000000.txt jobtracker/output 13/07/29 11:24:50 INFO input.FileInputFormat: プロセスへの合計入力パス: 1 log4j:ERROR [c:\Hadoop\hadoop-1.1.0-SNAPSHOT\logs/hadoop.log] の名前を [c:\Hadoop\hadoop-1.1.0-SNAPSHOT\logs/hadoop.log.2013-07] に変更できませんでした-26]。13/07/29 11:24:51 INFO util.NativeCodeLoader: ネイティブ Hadoop ライブラリをロードしました 13/07/29 11:24:51 警告 snappy.LoadSnappy: Snappy ネイティブ ライブラリがロードされていません 13/07/29 11:24: 54 情報 mapred.JobClient: 実行中のジョブ: job_201307261340_0001 13/07/29 11:24:55 情報 mapred.JobClient: マップ 0% 削減 0% 13/07/29 11:25:24 情報 mapred.JobClient: マップ 1% 削減0% 13/07/29 11:25:27 INFO mapred.JobClient: マップ 6% 削減 0% 13/07/29 11:25:30 INFO mapred.JobClient:
13/07/29 11:26:56 INFO mapred.JobClient: マップ 100% 削減 0% 13/07/29 11:27:05 INFO mapred.JobClient: マップ 100% 削減 8% 13/07/29 11:27 :08 情報 mapred.JobClient: マップ 100% 削減 33% 13/07/29 11:27:10 情報 mapred.JobClient: タスク ID: 試行_201307261340_0001_r_0 00000_1、ステータス: 失敗しました java.lang.NullPointerException at PageStat$PageStatReducer.reduce(PageStat) .java:120) で PageStat$PageStatReducer.reduce(PageStat.java:96) で org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:177) で org.apache.hadoop.mapred.ReduceTask.runNewReducer( ReduceTask.java:651 ) で org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) で org.apache.hadoop.mapred.Child$4.run(Child.java:271) で java.security. javax.security の AccessController.doPrivileged(Native Method)。auth.Subject.doAs(Subject.java:396) org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1135) org.apache.hadoop.mapred.Child.main(Child.java:265) )
13/07/29 11:27:11 INFO mapred.JobClient: マップ 100% 削減 0% 13/07/29 11:27:20 INFO mapred.JobClient: マップ 100% 削減 8% 13/07/29 11:27 :23 INFO mapred.JobClient: map 100% reduce 25% 13/07/29 11:27:25 INFO mapred.JobClient: Task Id: attempts_201307261340_0001_r_0 00000_2, Status: FAILED java.lang.NullPointerException at PageStat$PageStatReducer.reduce(PageStat) .java:120) で PageStat$PageStatReducer.reduce(PageStat.java:96) で org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:177) で org.apache.hadoop.mapred.ReduceTask.runNewReducer( ReduceTask.java:651 ) で org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) で org.apache.hadoop.mapred.Child$4.run(Child.java:271) で java.security. javax.security の AccessController.doPrivileged(Native Method)。auth.Subject.doAs(Subject.java:396) org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1135) org.apache.hadoop.mapred.Child.main(Child.java:265) )
13/07/29 11:27:26 INFO mapred.JobClient: マップ 100% 削減 0% 13/07/29 11:27:38 INFO mapred.JobClient: マップ 100% 削減 25% 13/07/29 11:27 :41 INFO mapred.JobClient: map 100% reduce 0% 13/07/29 11:27:43 INFO mapred.JobClient: Job complete: job_201307261340_0001 13/07/29 11:27:43 INFO mapred.JobClient: Counters: 24 13/07/29 11:27:43 INFO mapred.JobClient: ジョブ カウンター 13/07/29 11:27:43 INFO mapred.JobClient: 起動された reduce tasks=4 13/07/29 11:27:43 INFO mapred。 JobClient: SLOTS_MILLIS_MAPS=179086 13/07/29 11:27:43 INFO mapred.JobClient: スロットを予約した後の待機時間の短縮 (ms)=0 13/07/29 11:27:43 INFO mapred.JobClient :
スロットを予約した後にすべてのマップが待機していた合計時間 (ミリ秒)=0 13/07/29 11:27:43 INFO mapred.JobClient: Launched map tasks=4 13/07/29 11:27:43 INFO mapred.JobClient : データ ローカル マップ タスク = 4 13/07/29 11:27:43 INFO mapred.JobClient: タスクの削減に失敗しました = 1 13/07/29 11:27:43 INFO mapred.JobClient:
SLOTS_MILLIS_REDUCES=106513 13/07/ 29 11:27:43 INFO mapred.JobClient:
FileSystemCounters 13/07/29 11:27:43 INFO mapred.JobClient:
FILE_BYTES_READ=179504086 13/07/29 11:27:43 INFO mapred.JobClient:
HDFS_BYTES_READ=254931072 13/ 07/29 11:27:43 INFO mapred.JobClient:
FILE_BYTES_WRITTEN=359099432 13/07/29 11:27:43 INFO mapred.JobClient: ファイル入力形式カウンター 13/07/29 11:27:43 INFO mapred.JobClient:
読み取ったバイト数 = 254930544 13/07/29 11:27:43 INFO mapred.JobClient:
Map-Reduce Framework 13/07/29 11:27:43 INFO mapred.JobClient: マップ出力のマテリアライズド バイト = 17949 9502 13/07/29 11:27:43 INFO mapred.JobClient: 出力レコードの結合 = 0 13/07/ 29 11:27:43 情報 mapred.JobClient: マップ入力レコード=5000000 13/07/29 11:27:43 情報 mapred.JobClient: 物理メモリ (バイト) スナップショット=85 1607552 13/07/29 11:27:43情報 mapred.JobClient: こぼれたレコード = 10000000 13/07/29 11:27:43 情報 mapred.JobClient: マップ出力バイト = 169499478 13/07/29 11:27:43 情報 mapred.JobClient: CPU 時間 (ミリ秒) =81308 13/07/29 11:27:43 INFO mapred.JobClient: コミットされた合計ヒープ使用量 (バイト)= 746323968 13/07/29 11:27:43 INFO mapred.JobClient: 仮想メモリ (バイト) スナップショット=988 401664 13/07/29 11:27:43 INFO mapred.JobClient: 入力レコードを結合 = 0 13/07/29 11:27:43 INFO mapred。JobClient: マップ出力レコード = 5000000 13/07/29 11:27:43 INFO mapred.JobClient:
SPLIT_RAW_BYTES=528
ありがとう!!!
c# - Hive を asp.net プロジェクトに接続する方法
こんにちは、Hadoop は初めてです。
Microsoft HDInsight をローカル システムにインストールしました。ここで、ハイブと HBase に接続したいのですが、HIVE 接続の場合、接続文字列、ポート、ユーザー名、パスワードを指定する必要があります。
しかし、この値を取得する方法がわかりません。ポートとして localhost と 8085 を試しましたが、うまくいきません。また、localhost IP とシステム IP も指定して実行しました。
これを手伝ってください。HBase 接続の進め方を教えてください。
hadoop - エラー security.UserGroupInformation: PriviledgedActionException
HDInsights で Hadoop バージョン 1.1.0 を学習しようとしています。段階的な指示に従って、Hadoop コマンド ラインでコマンドを実行しました。最初に Java コードをコンパイルし、jar ファイルを作成してから map reduce コマンドを実行しました。しかし、mapreduce コマンドを実行すると、以下のエラーが表示されます。エラーの意味と、それを修正するために何をする必要があるかを理解するのを手伝ってくれる人はいますか?
どんな助けにも感謝します!ありがとう、ラムヤ
c# - ストリーミング マップ削減ジョブを Azure でリモートで実行することはできますか?
C# を使用して Azure クラスターでストリーミング Map Reduce ジョブをリモートで実行するにはどうすればよいですか? 私のマッパーとレデューサーは Java または C++ で書かれています。.Net C# SDK のジョブ実行メソッドは入力で JobType を受け取るため、C++ および Java ベースのマッパー/リデューサーのタイプを指定できません。
StreamingProcessExecutor
私の場合に適していると思われる別のクラスがありますが、入力で資格情報を受け取る場所がないため、リモート実行には使用できないと思います。
ストリーミング マップ削減ジョブをリモートおよびプログラムで実行する方法を知っている人はいますか?
c# - Azure + HDInsight のローカル エミュレーション
タスクは、 ETLプロジェクトのT部分 (変換) をAzure クラウドに実装することです。HDInsight はそのために使用するのに適したサービスだと思いますが、よくわかりません。この選択を承認または反論してください。
私はこの分野にまったく慣れていないので、誰かが私をここで正しい方向に向けることができれば幸いです.
変換サービス (ジョブ) を開発し、 Azure Storage/Compute EmulatorsとVisual Studio 2012 (理想的には C#)を使用してローカルでテストできるようにしたいと考えています。私は、HDInsightがこの図にどのように適合するかを確信しています (もしあったとしても)。変換ジョブは、BLOB ストレージからテキスト ファイルを読み取り、Azure テーブル ストレージにデータを生成 (マップ リデュース) します。
c# - HDInsight は ASV (ブロブ ストレージ) でのみ機能しますか?
hdinsight の map reducer によって生成されたデータを、簡単にレポートできる形式で保存したいと考えています。テーブル構造 (Azure テーブル ストレージ) が理想的です。いくつかの調査を行ったところ、HDInsight サービスは Azure Storage Vault (ASV) (読み取りと書き込みの両方) でのみ機能するようです。あれは正しいですか?
C# で hdinsight マッパー/リデューサーを実装したいと思います。
Hive や pig についてはよくわかりませんが、ASV 以外の外部 (Azure テーブル) データ ストレージにレデューサーの結果を保持できる機能があるのだろうか?
c# - ローカル ストレージ エミュレーターで Azure Storage Vault (ASV) を指すように HDInsight の入力/出力パスを設定する方法を教えてください。
hdinsight の単純なマップ/リデューサー ジョブを作成しようとしていますが、 ASV://経由でローカルの hdinsight Hadoop クラスターのジョブをローカルの Azure ストレージ エミュレーターに接続する際に問題が発生しています。
次のようなサンプル コード:
また
ここで、testcontainerは、ローカル エミュレーターの BLOB ストレージ内の既存のコンテナーです。このコードを実行すると、StreamingException "Process failed ('Streaming Job Failed!')" が発生します。
コンソール出力に次のエラーが表示されます。
ヒントはありますか?
azure - HDInsight ジョブの実行方法
HDInsight ジョブ アプローチに関するいくつかの質問。
1) HDInsight ジョブをスケジュールする方法は? それに対する準備ができている解決策はありますか?たとえば、私のシステムが、map/reduce ジョブを実行する必要がある多数の新しい入力ファイルを常に収集する場合、進行中の処理を実装するための推奨される方法は何ですか?
2) 価格の観点から、ジョブが実行されていない間は HDInsight クラスターを削除することをお勧めします。私が理解しているように、ジョブを毎日実行することにした場合、このプロセスを自動化する方法はありませんか? ここに何か推奨事項はありますか?
3) 同じファイルが複数回処理されないようにする方法はありますか? この問題をどのように解決しますか?
4) 私は間違っているかもしれませんが、すべての hdinsight ジョブには、リデューサーの結果を保存するための新しい出力ストレージ フォルダーが必要なようです。レポートが常にデータ セット全体で機能するように、これらの結果をマージするためのベスト プラクティスは何ですか?
azure - corr との HIVE 相関が正しくない
「corr」を使用して、HIVE の 2 つの行を関連付けようとしています。残念ながら、結果は完全に間違っています。PIG 関数を使用すると、結果は OK です。
HDInsight とスプレッドシートの両方でオプションを確認しました。
また、HortonsSandbox で同じクエリを実行すると、結果は正しいです。HDInsight の実装に何か問題があるはずです。クエリは簡単です。
何か案は?
azure - HDInsight サービスを ATS に使用できますか?
Xtrace と呼ばれるロギング システムがあります。このシステムを使用して、ログ、例外、トレースなどを SQL Azure データベースにダンプします。運用チームは、このデータをデバッグや SCOM の目的で使用します。SQL Azure の 150 GB の制限を考慮して、HDInsight (ビッグ データ) サービスの使用を考えています。
Azure Table Storage にデータをダンプした場合、HDInsight Service は ATS に対して機能しますか?
それとも、ブロブ ストレージに対してのみ機能します。つまり、ログ レコードはブロブ ストレージにファイルとして作成する必要がありますか?
- 最後の質問。上記で説明したシナリオを考慮すると、HDInsight サービスを使用するのに適しているでしょうか?