問題タブ [hadoop-streaming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
387 参照

java - Hadoop ストリーミング、typedbytes、rawbytes でキー、値、およびレコードがどのように区切られているか

Hadoop ストリーミングのテキスト レコードが改行文字で区切られていること、およびキーと値の間に設定可能な区切り文字があることを理解しています (デフォルトはタブ)。

1) rawbytes 形式の構造は、レコードまたはキー/値の区切り記号が不要であることを示唆していますが、誰かがこれが事実であることを確認できますか?

2) typedbytes 形式では、キーと値はどのように区切られ、レコードはどのように区切られますか?

3) また、キーは typedbytes と rawbytes 形式でどのようにソートされますか?

0 投票する
1 に答える
210 参照

python - ストリーミング バイナリ実行可能ファイル

ストリーミング ジョブで、マッパーで実行可能ファイルを呼び出したいと考えています。それはこのようなものです

mapper.py

コマンドは

しかし、その結果、バイナリ ファイルは実行されません。どうしてか分かりません。誰でも私を助けることができます

0 投票する
1 に答える
2757 参照

amazon-s3 - EMR ファイルを 1 つに結合する方法は?

大きなバイナリ ファイルを (2Gb) チャンクに分割し、Amazon S3 にアップロードしました。今、それを 1 つのファイルに結合して、カスタムで処理したい

走ってみた

しかし、ローカル端末への -cat 出力データが原因で失敗しました - リモートでは動作しません...

どうすればこれを行うことができますか?

PS私は猫をストリーミングMRジョブとして実行しようとしました:

この仕事は無事に終わりました。しかし。dir/in に 3 つのファイル パーツがありましたが、現在は /dir/out に 6 つのパーツがあります。

そして、私の出力の一部ではないファイル_SUCCESS ofcource...

そう。ファイルの前に分割された結合方法は?

0 投票する
2 に答える
94 参照

python - 特定の文字を含まない圧縮データのASCII表現

Pythonを使ってHadoopで大量の漬け込みデータを処理したい。私がやろうとしているのは、データをキー (ファイル ID) として表し、圧縮されたピクルを大きなファイルの値として表すことです。

Hadoop で処理したいファイルにバイナリ コードを ascii として単純に入れようとすると、hadoop ファイルの (キー、値) 構造に干渉する多くの '\t' および '\n' 値が得られます。

私の質問は、Python を使用して一部のデータを圧縮し、特定の文字 (「\t」や「\n」など) を避けて、ASCII ファイルの文字列として表すにはどうすればよいですか?

それとも、私のアプローチは本質的に無効なのでしょうか?

私は本当に助けていただければ幸いです!

0 投票する
1 に答える
275 参照

hadoop - Hadoop:書き込まれた後に出力ファイルを変更します

概要:hadoopストリーミングで書き込まれた後に各出力ファイルで実行されるアクションを指定できますか?

基本的に、これは、hadoopmapreduce質問の​​出力をzipする最も簡単で効率的な方法のフォローアップです。キーごとにX、その値をファイルに書き込み、アーカイブX.txtに圧縮したいと思います。X.zipしかし、zip出力ストリームを作成する場合、結果のファイルのキーや名前について何かを伝えるのは難しいため、X.zipアーカイブに。が含まれることになりますdefault-name.txt

アーカイブの内容の名前を変更するのは非常に簡単な操作ですが、どこに配置できますか?私がやりたくないのは、S3からすべてのzipをダウンロードして、その時点でアップロードすることです。

0 投票する
0 に答える
2428 参照

hadoop - hbase の一部のメタ リージョン オンライン例外

4 ノードの hadoop,hbase クラスターがあり、そのうちの 1 つは hadoopmaster および hbasemaster として機能します。残りの 3 つのサーバーは、datanode、regionserver、zookeeper です。最近、(datanode、regionserver、zookeeper) を実行しているマシンの 1 つがクラッシュし、システムが再起動しません。しかし、まだ Hadoop クラスターは正常に動作していますが、オンラインのリージョンがなく、hbase テーブルを表示できないため 、 hbase クラスターに問題が発生しています。: ダウンしたノードの名前は、コマンドのhadoopslave3 です。

hbase shellテーブルを作成しようとすると、エラーが発生しました:

コマンドの場合:

それが示している:

マスターログには次のように表示されます。

regionserver(hadoopslave2) ログの 1 つに次のように表示されます。

0 投票する
0 に答える
122 参照

hadoop - Hadoop でのストリーミング データの受信

Hadoop がデータの連続ストリームを処理できるようにする Hadoop 製品 HStreaming をテストしようとしています。Twitter ストリームにアクセスしましたが、mapreduce プログラムが Twitter からストリーム データを受信して​​いません。ただし、ブラウザー、wget、curl ユーティリティからは同じ Twitter URL が機能します。知りたい - MapReduce プログラムが (ファイアウォールから) http にアクセスするために必要な構成はありますか?

0 投票する
2 に答える
1327 参照

hadoop - "追加" ハイブ cli で

私は何かが欲しい

ハイブの作業ディレクトリにディレクトリを追加します。

ハイブ0.7を使用しています。
これは、マッパー/リデューサー スクリプトで使用する Python パッケージを追加するために必要です。
私のオプションは何ですか?

0 投票する
1 に答える
416 参照

hadoop - hadoopストリーミングはノードIDを取得します

Hadoopストリーミングでは、特定のタスクを処理するノードのIDを取得する方法はありますか?

例えとして、このスニペットはタスクの入力ファイルの名前を示します。

os.environ["map_node_id"]のようなものを探しています。ノードへの一意のハンドルはすべて機能します...

0 投票する
1 に答える
1256 参照

python - HadoopストリーミングでPythonスクリプトから有益なエラーを取得する方法はありますか?

私はHadoopストリーミングでPythonを使用しています。注意深い単体テストにもかかわらず、エラーは必然的に忍び寄ります。そうなると、このエラーメッセージはhadoopが提供するすべてのものです。

このメッセージは、デバッグには非常に役立ちません。

HadoopストリーミングでPythonスクリプトから有益なエラーを取得する方法はありますか?