hadoop - Cascalog は外部の Hadoop クラスターにリンクできますか?

Question

私は Eclipse で Cascalog を使用しています。以下のように、プロジェクトの project.clj ファイルに Hadoop への依存関係が提供されているようです。

:profiles { :dev {:dependencies [[org.apache.hadoop/hadoop-core "1.1.2"]]}}

ローカルにインストールされた Hadoop 単一ノードクラスタまたは外部 Hadoop クラスタへの依存関係を含める必要がある場合、どのようにすればよいですか? ローカルの場合、「org.apache.hadoop」の代わりに「hadoop へのパス」を単に配置する必要がありますか? あなたのアイデアをいただければ幸いです。

敬具、シンドゥ

score 0 · Accepted Answer

シンドゥさん、project.clj でのクラスターの場所の指定は適切ではありません。

project.clj は、pom.xml が java/maven にあるものを clojure することです。leinengen の依存関係管理に関するチュートリアルは、こちらからご覧ください。依存関係を宣言するバージョンが、実行対象と一致することを確認する必要があります。

最終的に実行するクラスターは、hadoop conf ファイルで制御されます。具体的には、ジョブトラッカーの場所を mapred-site.xml の「mapred.job.tracker」で変更します。ここでそれらについて読むことができます

score 0 · Accepted Answer

Cascalog ガイドにあるリンクを確認できるように、クラスターで実行する Hadoop クラスターでの Cascalog クエリの開発と展開 http://nathanmarz.com/blog/news-feed-in-38-lines-of-code-using -cascalog.html 実稼働クラスターで実行中の段落を見つけることができ、ここでコピー/貼り付け

1- サンプルデータをクラスターの "/tmp/follows" および "/tmp/action" にコピーします。

2- 次に、「lein uberjar」を実行して、プログラムとそのすべての依存関係を含む jar を作成します。デモコードは :gen-class を指定し、main メソッドを持っているため、他の Hadoop プログラムと同じように実行できます。クラスターでクエリを実行し、結果をテキスト形式で「/tmp/results」に出力するには、次を実行します。

3-hadoop jar cascalog-demo-standalone.jar cascalog_demo.demo /tmp/follows /tmp/action /tmp/results

hadoop - Cascalog は外部の Hadoop クラスターにリンクできますか?

2 に答える 2

Related

Reference