問題タブ [hortonworks-data-platform]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
256 参照

java - Hadoop レデューサーには入力のタイムアウトがありますか?

8 ノードの Windows HDP クラスターで実行しようとしている Hadoop ジョブがあります。このジョブには 137,000 を超える入力があり、約 3.5 時間でマップ タスクの 84% から 92% を処理します。その後、リデューサーは 0% で再起動し、マップ タスクが再実行されます。仕事は決して終わらない。

私の質問は、リデューサーが再起動する原因となっている dfs からのマップ出力またはブロックを読み取るリデューサーにタイムアウトがありますか? または、リデューサーが何らかの制限に達した場合、原因を特定するのに役立つエラー メッセージが生成されますか。私の最初のハードルは、デフォルトのキューでは 100000 のタスクしか許可されていなかったのに、そのことを示すメッセージが表示されてジョブがエラーになったことでした。

私が使用している Hadoop のバージョンは、Microsoft HDInsight で得られるバージョンです。Windows 用の Hadoop 1.1.0 スナップショットのようです (Windows 用の Hortonworks Data Platform 1.0.1 Developer Preview)。クライアント タスクに 8000 MB のメモリを与えるようにプロパティを設定しました。jobtracker は Windows サービスから開始されたように実行されているため、VM が実際にどのくらいのメモリで開始されているかわかりません。

0 投票する
3 に答える
9423 参照

java - Hiveserver2 Java API

で作成されたハイブサーバー(1)に接続できました

次のJavaを使用します。

hiveserver2に相当するものはありますか?ある場合、それは何ですか?私が見つけた最高のものはデザインの提案であり、私はまだドキュメントを見つけていません。ClouderaにはここでPython用に何かが設定されているようです

あるいは、Javaから任意のHiveクエリを実行するための最良の方法は何ですか?関連する場合は、Hortonworks DataPlatform1.2で実行しています

0 投票する
1 に答える
16108 参照

java - Hiveserver2 Thrift Java クライアントを使用するとリクエストがハングする

これは、Hiveserver 2 thrift Java クライアント API とは何かを尋ねるこの質問のフォローアップの質問です。これ以上のコンテキストが必要ない場合、この質問はその背景なしで立つことができるはずです.

hiverserver2 thrift api の使用方法に関するドキュメントが見つからないため、これをまとめました。私が見つけた最良のリファレンスは、Apache JDBC の実装です。

で作成された Hiverserver2 インスタンスに対してこのコードを実行します

デバッグするとき、私は一線を越えることはありません

クライアントは、タイムアウトに達するまで単にハングし、サーバーは stdout またはログに何も書き込みません。Wireshark を使用すると、OpenSession() の TCP セグメントが送信され、ACK されていることがわかります。クライアントを強制終了するか、タイムアウトに達すると、サーバーから次のメッセージが表示されます。

これは、hiveserver2 に対して hiveserver (1) クライアントを誤って使用しようとしたときに受け取ったのとまったく同じエラーであることは興味深いことです。これは、hiverserver2 に関する限り、クライアントがガベージを送信していることを示唆しています。

どこが間違っているのか、3 つの可能性があると思います。

1) クライアント API の使い方が間違っています。JDBC の実装では、サンプル コードで使用していない認証および接続パラメーターでいくつかの処理が行われていることがわかりました。私はそれをいじってみましたが、暗闇の中で撮影していたので、それ以上は進みませんでした.

2) セットアップ手順を間違えました。Hive-servive-0.10.0 jar では TCLIService を見つけることができませんでしたが、Hortonworks が HDP 1.2 でリリースした hive-servive-0.10.0.21 jar では見つけることができたので、それを掘り下げてみるとよいでしょう。問題を明らかにします。または、ODBC を使用してハイブに接続できるが、thrift クライアントでは接続できない理由を説明する、サーバー側を構成する必要があるものがあるかもしれません。

3) この時点で、hiveserver2 クライアント API に対して書き込むことができない可能性があります。これは、ドキュメントの欠如とインターネット上での成功例の明らかな欠如に基づいてもっともらしいですが、JDBC はそれを行うようです。これは最もありそうもない選択肢だと思います。

修正方法を知らなくても、修正方法が 1、2、または 3 のどれに該当するかがわかれば、検索を絞り込むのに役立ちます。

0 投票する
2 に答える
2204 参照

hadoop - Windows での Python による Hadoop ストリーミング

Windows 用の Hortonworks HDP を使用しており、マスターと 2 つのスレーブで正常に構成されています。

次のコマンドを使用しています。

bin\hadoop jar contrib\streaming\hadoop-streaming-1.1.0-SNAPSHOT.jar -files file:///d:/dev/python/mapper.py,file:///d:/dev/python/reducer.py -mapper "python mapper.py" -reducer "python reduce.py" -input /flume/0424/userlog.MDAC-HD1.MDAC.local..20130424.1366789040945 -output /flume/o%1 -cmdenv PYTHONPATH=c:\python27

マッパーは正常に実行されますが、ログには reduce.py ファイルが見つからなかったことが報告されています。例外では、hadoop タスクランナーがレデューサーのシンボリック リンクを mapper.py ファイルに作成しているように見えます。

ジョブ構成ファイルを確認すると、mapred.cache.filesが次のように設定されていることに気付きました。

hdfs://MDAC-HD1:8020/mapred/staging/administrator/.staging/job_201304251054_0021/files/mapper.py#mapper.py

reduce.py ファイルが jar ファイルに追加されているようですが、設定に正しく含まれておらず、レデューサーを実行しようとしても見つかりません。

私のコマンドは正しいと思います。代わりに -file パラメーターを使用してみましたが、どちらのファイルも見つかりません。

明らかな理由を誰かが見たり知ったりできますか?

これはWindows上であることに注意してください。

編集-ローカルで実行したところ、機能しました。問題は、クラスター内のファイルのコピーにあるようです。

まだ入力を歓迎します!

0 投票する
2 に答える
2198 参照

sql - Hortonworks に SQL データをロードする方法は?

PC に Hortonworks SandBox をインストールしました。また、CSV ファイルを試してみましたが、テーブル structerd の方法で取得できました (Hive + Hadoop)。現在の SQL データベースをサンドボックス (MS SQL 2008 r2) に移行したいのですが、どうすればよいですか? また、私のプロジェクト (VS 2010 C#) に接続したいです。

ODBC経由で接続できますか?

SQL から Hadoop へのデータ転送に sqoop を使用していると聞きましたが、sqoop でこの移行を行うにはどうすればよいですか?

0 投票する
3 に答える
5761 参照

hadoop - ハイブ: SELECT * ステートメントは機能しますが、SELECT COUNT(*) は機能しません

Windows Server 2008 R2 で HDP 1.1 を使用しています。
Hive テーブルに Web ログインをロードしました。テーブル ステートメントを作成します。

負荷ステートメント:

ステートメントを選択:

これまでのところ、すべて正常に動作しています。

次のステートメントは失敗します。

例外:

失敗: 実行エラー、org.apache.hadoop.hive.ql.exec.MapRedTask からの戻りコード 2

編集1:

失敗したジョブ テーブルの診断情報には、次の情報が表示されます。

「失敗したマップ タスクの数が、許可されている制限を超えました。FailedCount: 1. LastFailedTask: task_201306251711_0010_m_000000'

0 投票する
1 に答える
1333 参照

hadoop - ヤーン クライアントを使用して HDP 2.0 (Hortonworks Hadoop) に接続する

VirtualBoxでHDP 2.0をダウンロードして起動し、YarnClientを使用してJavaから接続しようとしました

しかし、次のエラーに遭遇しました:

何がうまくいかないのですか?

中央レポの Hadoop ライブラリ バージョン 2.1.0-SNAPSHOT を使用しています。これが私の yarn-site.xml です。

接続がターゲットに到達します。サーバーログを調べたところ、認証の問題のようです:

しかし、すべてのドキュメントは、このすべてのセキュリティ機能をどのように構成する必要があるかについて、非常に沈黙しています。Hortonworks 製品を実際に使用した経験のある人はいますか?

0 投票する
1 に答える
736 参照

hbase - CDH4.3 incompatibleClassChangeError の Sqoop 1.4.4

Sqoop 1.4.4 は、複合行キーを使用した db から HBase へのインポートをサポートしますが、1.4.4 より前では、db の 1 つの列のみを行キーとして使用できます。これまでのところ、CDH4.3 と HDP1.3 はどちらも Sqoop 1.4.3 のみをサポートしています。sqoop 1.4.4 を CDH4.3 環境にスワップしようとしました。単純な Sqoop ジョブを実行すると、次のエラーが表示されます。

誰もこれを前に手に入れましたか?Sqoop 1.4.4 は、mapreduce、HBase、および HDFS のどのバージョンと互換性がありますか?

0 投票する
1 に答える
729 参照

hadoop - リモートサーバーから豚に接続する

Hortonworks Sandbox は初めてで、リモート マシンから curl を使用して外部接続を確立し、完了したジョブを取得したり、新しいジョブを開始したりできるかどうか疑問に思っていました。可能であれば、それを使用した例をいただければ幸いです。

しばらく試してみましたが、curl リクエストからの応答としてログイン ページを取得し続けます (適切な資格情報を使用して curl から user|password コマンドを使用した場合でも)。

Hortonworks が無料ダウンロードとして提供する Hortonworks Sandbox v1.3 仮想ボックス イメージを使用して環境を実行しています。

0 投票する
1 に答える
1184 参照

c# - C# の Hadoop - 応答ステータス コードが成功を示さない: 500 (サーバー エラー)

Hadoop クラスターで MapReduce ジョブを実行しようとすると、奇妙な例外が発生します。ここで興味深いのは、HDFS にアクセスできるが、ジョブを実行できないことです。

違いがある場合は、テストに Hortonworks サンドボックスを使用しています。正確なエラーは、「リモート名を解決できませんでした: 'sandbox'」です。

なぜこれが起こっているのか、それを修正するために何ができるのかを誰か説明できますか?

編集:Hadoop クラスターの IP をホスト ファイルに追加することで問題を修正しましたが、次の例外が発生しています:「応答ステータス コードは成功を示していません: 500 (サーバー エラー)」。