hadoop - Druid + Hadoop (ディープストアとインデックス作成の両方の用途)

Question

別のマシンで Hadoop サーバー (疑似分散モード) を実行している場合でも、これらのファイルを Druid の conf dir の下に置く必要がありますか? : http://druid.io/docs/latest/configuration/hadoop.html

私の見立てでは：

それらの-site.xmlファイルはHadoopサーバー用のようです...そしてDruidはHadoopクライアントとしてのみ機能します。したがって、Druid に hdfs-site.xml は必要ないと思います。

Core-site.xml... わかりました、取得できます。つまり、Druid は名前ノード (hadoop) の IP を知る必要があります。

Mapred-site.xml、部分的に。Druid は mapreduce ジョブのステータスを知る必要があります (インデックス作成を MR ジョブとして Hadoop に委任すると思います)。そのため、これらのジョブトラッカーと通信して、インデックス作成が完了したか、失敗したか、進行中であるかを確認する必要があります。そのためには、Hadoop JT の URL が必要です。

ただし、Druid は MR ジョブに積極的に参加しないため、このプロパティ「mapreduce.cluster.local.dir」は必要ありません。

ヤーン-site.xml? 多分それは部分的にとどまるべきです。少なくとも仕事を提出するため（？）。

HDFS-site.xml はどうですか? これは完全に廃棄できると思います。

容量スケジューラ.xml? それは行くことができます。

間違っている場合は修正してください。

これらの質問/疑問が生じるのは、私が Hadoop にまったく慣れていないためです。Hadoop セットアップを実行しています。疑似分散モード。また、ファイルを読み書きするためにjavascript webhdfsライブラリでテストしました。また、hadoop dist が提供するサンプル MR ジョブも試しました。したがって、私の Hadoop セットアップは問題ないと思います。Druid サイトについては、ドキュメントが明確ではないこともあり、少し確信が持てません。

ところで....私はhadoop 2.7.2を持っています...ドルイドが使用するhadoop-client libsはまだ2.3.0にあります。

Hadoop サーバーを 2.3.0 にダウングレードする必要がありますか?

http://druid.io/docs/latest/operations/other-hadoop.html

ありがとう、ラカ

score 0 · Accepted Answer

mapred-site.xml core-site.xml hdfs-site.xml yarn-site.xml をクラスパスに追加してください。また、druid をダウングレードする必要はありません。2.7.X でうまく動作します。ドキュメントでわかるように、複数のバージョンの Hadoop を使用できます。

hadoop - Druid + Hadoop (ディープストアとインデックス作成の両方の用途)

1 に答える 1

Related

Reference