問題タブ [hadoop-streaming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
819 参照

mongodb - mongo-hadoopストリーミングmapper.pyが見つかりません

mongo-hadoopストリーミングを実行すると、次のエラーが発生します。

ダンボまたは通常の方法で標準のHadooppythonストリーミングを実行しても問題ありません。

このエラーは、別の投稿のHadooppythonストリーミングで言及されました

私はこのような仕事をしています:

mapper.py/reducer.pyでパス/絶対パスを使用して、-file引数に絶対パスを追加しても効果はありません。標準のHadoopストリーミングは問題なく動作するため、エラーは発生しません。

mapper.pyとをhdfsに追加しreducer.pyても、役に立ちませんでした。

mapper.py実行可能でありreducer.py、最初の行にシバンがあります:

mapper.py

reducer.py

OSXでclouderaHadoopCDH3u3を実行しています。Javaの例は問題なく動作します

アップデート

0.23.1を試しましたが、同じエラーが発生します。

-debugを実行してもPackagedJobJarstreamjob.jarは削除されません

私がそれを抽出してそこにいるmapper.pyときreducer.py

これらのファイルは、stdストリーミングジョブを実行するときにも存在します。mongo-haddoop-streamingでも上記のエラーが発生します

0 投票する
2 に答える
4943 参照

apache-pig - ApachePigを使用したピボットテーブル

ApachePigで1回のパスでテーブルをピボットできるかどうか疑問に思います。

入力:

出力:

実際のデータには数十の列があります。

これは、awkを1回のパスで実行してから、Hadoopストリーミングで実行できます。しかし、私のコードの大部分はApache Pigであるため、Pigで効率的に実行できるかどうか疑問に思います。

0 投票する
1 に答える
349 参照

java - HadoopストリーミングでKey-Value区切り文字として印刷不可を指定する方法

att。stream.map.output.field.separator=を使用して区切り文字を指定しています

0 投票する
1 に答える
934 参照

optimization - Hadoop の GZip 入力ファイルを使用するときに S3 の読み取りパフォーマンスを最適化する方法

Hadoop ストリーミング ジョブの最初のステップで、パフォーマンスが非常に低下しています。マッパーは S3 から約 40KB/s ~ 50KB/s を読み取ったようです。

S3 から最大 100MB のデータを読み取るのに 1 時間以上かかります

データの保存方法: S3 バケット内の数千の ~5-10KB GZip ファイル。

最近、サンプルの 100MB データセットのすべてのファイルを解凍し、同じ S3 バケットに単一の GZip ファイルとしてアップロードしました。タスクは 3 分で完了しました (以前の 1 時間の実行に対して)。

勇気づけられて、サンプルの 2GB データセットのすべてのファイルを解凍し、それを単一の GZip ファイルとして同じ S3 バケットにアップロードしました。また、タスクに 1 時間以上かかりました。その後、タスクを終了しました

mapred.min.split.sizeと をいじったことはありませんがmapred.max.split.size、いじり始めるにはいくつかのサンプル値が必要です。

インターネットで読んだ投稿によると、Hadoop ストリーミング タスクの GZip 入力ファイルを使用して GB 単位のデータを処理しても、S3 からの読み取りに関する限り、多くのペナルティは発生しないようです。

共有していただけますか:

  1. S3に保存するファイルの「ブロブサイズ」と
  2. タスクごとに処理するそれらの数と
  3. それらの処理にはどのくらい時間がかかりますか?

を調整し、S3 に関して上記の 3 つの値を最適に保つと、ジョブの実行時間に多くの変化が生じるとmapred.min.split.size思います。mapred.max.split.size

0 投票する
1 に答える
1061 参照

hadoop - Hadoopにシェルスクリプトが見つかりません

私はHadoopとHadoopストリーミングに慣れていないので、このエラーはおそらく私が見逃している明らかなものです。

インラインawkmapperコマンドを実行すると、正常に動作します。

しかし、awkコマンドをファイルに入れて実行すると。クラスタ内のすべてのマシンでJavaIOExceptionが発生しました。

test.sh

例外:

0 投票する
2 に答える
6005 参照

python - MRjobで入力ファイルの名前を取得する方法

私はmrjobを使用してマップ関数を書いています。私の入力は、HDFS上のディレクトリ内のファイルから取得されます。ファイルの名前には、ファイルには存在しない小さいが重要な部分情報が含まれています。特定のキーと値のペアが由来する入力ファイルの名前を(マップ関数内で)学習する方法はありますか?

私はこのJavaコードに相当するものを探しています:

前もって感謝します!

0 投票する
1 に答える
2930 参照

hadoop - MR1 CDH4 を使用した単純な MapReduce ストリーミング ジョブの実行の失敗

最近 CDH3 からアップグレードされた CDH4 を実行しているクラスターがあります。ハイブは現在、かなりうまく機能しています。ただし、単純な MR Streaming ジョブ (バージョン 1) でさえ実行できないようです。Yarn はインストールされていますが、使用されていません。コマンドラインの入力と出力は次のとおりです

ログを確認すると、次のことがわかります。

ログは多くの失敗を出力し、タスクを減らします:

0 投票する
1 に答える
3455 参照

python - Python hadoop ストリーミング : ジョブ名の設定

  • Hadoop ストリーミングを使用してクラスターで実行するジョブがあります
  • ジョブ名を追加したい新しいジョブを開始する必要があります。コマンドラインまたはファイルでそのオプションを渡してジョブ名を設定するにはどうすればよいですか?
  • Javaでは、次のようにしてこれを行うことができます

Hadoop ストリーミングでそれを行うにはどうすればよいですか?

0 投票する
1 に答える
448 参照

hadoop - フェデレーションを使用したフル クラスタでの apache Hadoop-2.0.0 aplha バージョンのインストール

Hadoop 安定バージョンを正常にインストールしました。しかし、hadoop -2.0.0 バージョンのインストール中に混乱しました。

両方のマシンでフェデレーションを使用して、2 つのノードに hadoop-2.0.0-alpha をインストールしたいと考えています。rsi-1、rsi-2 はホスト名です。

フェデレーションを実装するために必要な以下のプロパティの値。どちらのマシンもデータノードにも使用されます。

fs.defaulFS dfs.federation.nameservices dfs.namenode.name.dir dfs.datanode.data.dir yarn.nodemanager.localizer.address yarn.resourcemanager.resource-tracker.address yarn.resourcemanager.scheduler.address yarn.resourcemanager.address

もう1点、Hadoopの安定版では、インストールディレクトリのconfフォルダーの下に構成ファイルがあります。

しかし、2.0.0-aplha バージョンでは、etc/hadoop ディレクトリがあり、mapred-site.xml、hadoop-env.sh がありません。share フォルダの下にある conf フォルダを hadoop-home ディレクトリにコピーする必要がありますか? または、これらのファイルを共有フォルダーから etc/hadoop ディレクトリにコピーする必要がありますか?

よろしく、ラシュミ

0 投票する
0 に答える
736 参照

python - hadoop、python :コマンドはスクリプトから実行されていません。どちらも失敗しませんが、コマンドラインからは正常に実行されます

Pythonコマンドを実行するPythonプログラムがあります

しかし、何が入っているかを見ると、HDFS何も得られません

から同じコマンドをshell実行すると、実行されてデータが取得されますHDFS

この動作が見られる理由がわかりません。コマンドを実行するコードは次のとおりです。