問題タブ [hadoop-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mongodb - mongo-hadoopストリーミングmapper.pyが見つかりません
mongo-hadoopストリーミングを実行すると、次のエラーが発生します。
ダンボまたは通常の方法で標準のHadooppythonストリーミングを実行しても問題ありません。
このエラーは、別の投稿のHadooppythonストリーミングで言及されました
私はこのような仕事をしています:
mapper.py/reducer.pyでパス/絶対パスを使用して、-file引数に絶対パスを追加しても効果はありません。標準のHadoopストリーミングは問題なく動作するため、エラーは発生しません。
mapper.py
とをhdfsに追加しreducer.py
ても、役に立ちませんでした。
mapper.py
実行可能でありreducer.py
、最初の行にシバンがあります:
mapper.py
reducer.py
OSXでclouderaHadoopCDH3u3を実行しています。Javaの例は問題なく動作します
アップデート
0.23.1を試しましたが、同じエラーが発生します。
-debugを実行してもPackagedJobJarstreamjob.jarは削除されません
私がそれを抽出してそこにいるmapper.py
ときreducer.py
これらのファイルは、stdストリーミングジョブを実行するときにも存在します。mongo-haddoop-streamingでも上記のエラーが発生します
apache-pig - ApachePigを使用したピボットテーブル
ApachePigで1回のパスでテーブルをピボットできるかどうか疑問に思います。
入力:
出力:
実際のデータには数十の列があります。
これは、awkを1回のパスで実行してから、Hadoopストリーミングで実行できます。しかし、私のコードの大部分はApache Pigであるため、Pigで効率的に実行できるかどうか疑問に思います。
java - HadoopストリーミングでKey-Value区切り文字として印刷不可を指定する方法
att。stream.map.output.field.separator=を使用して区切り文字を指定しています
optimization - Hadoop の GZip 入力ファイルを使用するときに S3 の読み取りパフォーマンスを最適化する方法
Hadoop ストリーミング ジョブの最初のステップで、パフォーマンスが非常に低下しています。マッパーは S3 から約 40KB/s ~ 50KB/s を読み取ったようです。
S3 から最大 100MB のデータを読み取るのに 1 時間以上かかります。
データの保存方法: S3 バケット内の数千の ~5-10KB GZip ファイル。
最近、サンプルの 100MB データセットのすべてのファイルを解凍し、同じ S3 バケットに単一の GZip ファイルとしてアップロードしました。タスクは 3 分で完了しました (以前の 1 時間の実行に対して)。
勇気づけられて、サンプルの 2GB データセットのすべてのファイルを解凍し、それを単一の GZip ファイルとして同じ S3 バケットにアップロードしました。また、タスクに 1 時間以上かかりました。その後、タスクを終了しました。
mapred.min.split.size
と をいじったことはありませんがmapred.max.split.size
、いじり始めるにはいくつかのサンプル値が必要です。
インターネットで読んだ投稿によると、Hadoop ストリーミング タスクの GZip 入力ファイルを使用して GB 単位のデータを処理しても、S3 からの読み取りに関する限り、多くのペナルティは発生しないようです。
共有していただけますか:
- S3に保存するファイルの「ブロブサイズ」と
- タスクごとに処理するそれらの数と
- それらの処理にはどのくらい時間がかかりますか?
を調整し、S3 に関して上記の 3 つの値を最適に保つと、ジョブの実行時間に多くの変化が生じるとmapred.min.split.size
思います。mapred.max.split.size
hadoop - Hadoopにシェルスクリプトが見つかりません
私はHadoopとHadoopストリーミングに慣れていないので、このエラーはおそらく私が見逃している明らかなものです。
インラインawkmapperコマンドを実行すると、正常に動作します。
しかし、awkコマンドをファイルに入れて実行すると。クラスタ内のすべてのマシンでJavaIOExceptionが発生しました。
test.sh
例外:
python - MRjobで入力ファイルの名前を取得する方法
私はmrjobを使用してマップ関数を書いています。私の入力は、HDFS上のディレクトリ内のファイルから取得されます。ファイルの名前には、ファイルには存在しない小さいが重要な部分情報が含まれています。特定のキーと値のペアが由来する入力ファイルの名前を(マップ関数内で)学習する方法はありますか?
私はこのJavaコードに相当するものを探しています:
前もって感謝します!
hadoop - MR1 CDH4 を使用した単純な MapReduce ストリーミング ジョブの実行の失敗
最近 CDH3 からアップグレードされた CDH4 を実行しているクラスターがあります。ハイブは現在、かなりうまく機能しています。ただし、単純な MR Streaming ジョブ (バージョン 1) でさえ実行できないようです。Yarn はインストールされていますが、使用されていません。コマンドラインの入力と出力は次のとおりです
ログを確認すると、次のことがわかります。
ログは多くの失敗を出力し、タスクを減らします:
python - Python hadoop ストリーミング : ジョブ名の設定
- Hadoop ストリーミングを使用してクラスターで実行するジョブがあります
- ジョブ名を追加したい新しいジョブを開始する必要があります。コマンドラインまたはファイルでそのオプションを渡してジョブ名を設定するにはどうすればよいですか?
- Javaでは、次のようにしてこれを行うことができます
Hadoop ストリーミングでそれを行うにはどうすればよいですか?
hadoop - フェデレーションを使用したフル クラスタでの apache Hadoop-2.0.0 aplha バージョンのインストール
Hadoop 安定バージョンを正常にインストールしました。しかし、hadoop -2.0.0 バージョンのインストール中に混乱しました。
両方のマシンでフェデレーションを使用して、2 つのノードに hadoop-2.0.0-alpha をインストールしたいと考えています。rsi-1、rsi-2 はホスト名です。
フェデレーションを実装するために必要な以下のプロパティの値。どちらのマシンもデータノードにも使用されます。
fs.defaulFS dfs.federation.nameservices dfs.namenode.name.dir dfs.datanode.data.dir yarn.nodemanager.localizer.address yarn.resourcemanager.resource-tracker.address yarn.resourcemanager.scheduler.address yarn.resourcemanager.address
もう1点、Hadoopの安定版では、インストールディレクトリのconfフォルダーの下に構成ファイルがあります。
しかし、2.0.0-aplha バージョンでは、etc/hadoop ディレクトリがあり、mapred-site.xml、hadoop-env.sh がありません。share フォルダの下にある conf フォルダを hadoop-home ディレクトリにコピーする必要がありますか? または、これらのファイルを共有フォルダーから etc/hadoop ディレクトリにコピーする必要がありますか?
よろしく、ラシュミ
python - hadoop、python :コマンドはスクリプトから実行されていません。どちらも失敗しませんが、コマンドラインからは正常に実行されます
Pythonコマンドを実行するPythonプログラムがあります
しかし、何が入っているかを見ると、HDFS
何も得られません
から同じコマンドをshell
実行すると、実行されてデータが取得されますHDFS
この動作が見られる理由がわかりません。コマンドを実行するコードは次のとおりです。