問題タブ [analytics-for-apache-hdp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Bluemix Analytics for Apache Hadoop Big SQL - デバッグのためにログにアクセスする方法は?
Bluemix で Analytics for Apache Hadoop の Big SQL を使用しており、ログを調べてデバッグしたいと考えています (例: map reduce ジョブ ログ - 通常はhttp://my-mapreduce-server.com:19888/jobhistoryで利用可能、bigsql .log (Big SQL ワーカー ノードから)。Bluemix でこれらのログにアクセスする方法はありますか?
hadoop - Q: Analytics for Apache Hadoop は引き続き Bluemix で利用できますか? (ジオのカタログにはありません)
現在取り組んでいるプロジェクトで SystemT Text Analytics を試すために、Bluemix の Analytics for Apache Hadoop サービスを探しています。もう手に入らないそうです。この場合ですか?代替品はありますか、それともサービスが終了しただけですか?
このサービスのドキュメントは Bluemix ドキュメントで入手できますが、選択した地域に関係なく、カタログには表示されません。
cluster-computing - Ambari クラスター インストール ウィザードを使用して新しいノードをクラスターに追加する
最初に、Ambari クラスター インストール ウィザードを使用して 2 つのスレーブ ノード (node01、node02) クラスターを正常にインストールしました。
私の Ambari サーバーは他のノード (ノード 00 ) で実行されています。
問題は、インストール ウィザードの時点で、スレーブ ノードを 2 つしか指定しなかったことです (ターゲット ホストを入力するように求められたため)。
だから私はノード01、ノード02(スレーブ(言う))、
最終的に、デフォルトでノード 01 とノード 02 はマスターとスレーブとして動作しました (すべてのサービス/コンポーネントはこれら 2 つのノード (ノード 01 と 02) によって共有され、正常に動作し、2 ノード クラスターになりました)
ここで、私の要件は、ノード 00 (Ambari サーバーが実行されている) を追加してシステム全体を 3 ノード クラスターとして作成し、ノード 00 をマスターとして作成する (可能性がある場合)、または単純にいくつかのサービスを追加して実行することです。その上で。
すべてのサービスがノード 01 とノード 02 の間で共有されていたため、ノード 00 に追加する必要があるサービスはどれか。
ノード 00 をデータ ノード/名前ノード/秒として作成します。名前ノード? はいの場合、どのように?
私を助けてください。
ありがとう
hadoop - tpc-ds はデータをテーブルにロードしません (データを生成しますが、loadinf ステップでスタックし、テーブル 24 のうち 17 をロードするだけで、その後は何もしません)
私はハイブのベンチマークに取り組んでいますhttps://github.com/hortonworks/hive-testbench
テーブルへのデータのロードに問題があります。実際、TPC-ds データ ジェネレーターはデータを生成し、それらをテーブルにロードしようとしますが、テーブル 24 のうち 17 では動作が停止し、何もしません! 何度か試しましたが、完了するのに非常に多くの時間を費やしましたが、このステップで動かなくなったようで、何も起こりません。そのために私は何をすべきか教えてください。
一部のテーブルが欠落しているため、クエリを実行できません。
私は8コア28G RAMでAzureを使用しています
hadoop - yarn-resource-manager のログを表示できません
さまざまなコマンドを試してみましたが、yarn ログの表示にまだ問題があります。ログを表示するために従った手順は次のとおりです。
ヤーンログを表示すると、次のように表示されます
core-site.xml
ファイルでログ集計も有効にしました
存在しないログのパスを作成しましたが、yarn ログを表示できません
ヤーンログを表示する方法はありますか?
apache-spark - Apache Spark ジョブを使用した HDP での Hive テーブルの作成
HDFSの場所からcsvファイルを読み取り、そのデータをハイブテーブルに保存するために、Eclipseで次のScalaプログラムを作成しました[ローカルマシンにあるVMWareで実行されているHDP2.4サンドボックスを使用しています]:
このプログラムを Eclipse から実行すると、使用して
実行 -> Scala アプリケーション
オプション: Eclipse コンソールで次の結果が表示されます。
データのロード
読み込まれたデータ
根
|-- empid: 文字列 (nullable = true)
|-- empname: 文字列 (nullable = true)
|-- empage: 文字列 (nullable = true)
テーブルの作成
17/06/29 13:27:08 INFO CatalystWriteSupport: Catalyst スキーマで Parquet WriteSupport を初期化しました: { "type": "struct", "fields": [ { "name": "empid", "type": "string" , "nullable" : true, "metadata" : { } }, { "name" : "empname", "type" : "string", "nullable" : true, "metadata" : { } }, { "name" : "empage", "type" : "string", "nullable" : true, "metadata" : { } } ] } および対応する Parquet メッセージ タイプ: message spark_schema { optional binary empid (UTF8); オプションのバイナリ empname (UTF8); オプションのバイナリ empage (UTF8); }
テーブルが作成されました
データの選択
+-----+--------+------+
|エンピッド| empname|empage|
+-----+--------+------+
| | 1201| サティシュ| 25|
| | 1202| クリシュナ| 28|
| | 1203| アミット| 39|
| | 1204| 投げられた| 23|
| | 1205| プルドヴィ| 23|
+-----+--------+------+
17/06/29 13:27:14 エラー ShutdownHookManager: Spark 一時ディレクトリの削除中に例外が発生しました: C:\Users\cb\AppData\Local\Temp\spark-c65aa16b-6448-434f-89dc-c318f0797e10 java.io.IOException:削除に失敗しました: C:\Users\cb\AppData\Local\Temp\spark-c65aa16b-6448-434f-89dc-c318f0797e10
これは、目的の HDFS の場所 [HDP に存在する] から csv データが読み込まれ、tblEmployee2 という名前のテーブルもハイブに作成されたことを示しています。コンソールで結果を読み取って確認できます。Spark ジョブを実行してこのテーブルからデータを読み取ることで、このテーブルを何度も読み取ることさえできました。
しかし、パテを介してHDP2.4にアクセスし、ハイブでこのテーブルを表示しようとするとすぐに問題が発生します。
1) 私はそこにこのテーブルを見ることができませんでした。
2) このコードがハイブにマネージド/内部テーブルを作成すると考えているため、HDFS の特定の場所に存在する csv ファイルもそのベースの場所からハイブのメタストアの場所に移動する必要がありますが、これは発生していませんか?
3) Eclipse で metastore_db フォルダーが作成されていることも確認できましたが、これは、この tblEmployee2 がローカル/Windows マシンで作成されているということですか?
4) この問題を解決し、コードに hdp でハイブ テーブルを作成するように依頼するにはどうすればよいですか? ここで不足している構成はありますか?
5) 実行中に最後のエラーが発生するのはなぜですか? 迅速な対応/ポインタをいただければ幸いです。
UPDATE追加したときによく考えた後hiveContext.setConf("hive.metastore.uris","thrift://192.168.159.129:9083")
コードは少し移動しましたが、いくつかの許可関連の問題が発生し始めました。VMWare に存在するハイブのデフォルト データベースにこのテーブル [tblEmployee2] が表示されるようになりましたが、SparkSQL だけでそれを行います。
したがって、私はまだ HiveContext を使用できず、上記の問題 2 ~ 5 は引き続き発生します。
よろしく、ブペシュ
curl - Livy : spark ジョブを糸モードで実行する
Livy を介して糸 (クラスターまたはクライアント) モードで Spark ジョブを実行できません。Livy を使用して Spark ジョブを実行できますが、ジョブはローカル モードで実行されており、リソース マネージャーには表示されません。これらのジョブを yarn-cluster モードで実行したいと考えています。
Hortonworks HDP 2.6.1 Hadoop ディストリビューションを使用しています。HDP2.6.1 には、2 つのバージョンの spark (2.1.1 および spark 1.6.3) と 2 つのバージョンの livy (1 および 2) があります。
conf ファイルを表示/変更するための Ambari があります。
以下のファイルに変更を加えました:-
- /usr/hdp/2.6.1.0-129/etc/livy/conf.dist/conf/livy.conf
- /usr/hdp/current/livy-server/conf/livy-env.sh
- /usr/hdp/2.6.1.0-129/spark/conf/spark-defaults.conf
上記のファイルに以下のプロパティを追加しました:-
- spark.master 糸クラスター
- spark.submit.deployMode クラスター
========データ=========
========カールコマンド=========
ヤーンモードでsparkジョブを実行するには、どの構成ファイルを変更する必要がありますか?