問題タブ [hadoop-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop ストリーミング、typedbytes、rawbytes でキー、値、およびレコードがどのように区切られているか
Hadoop ストリーミングのテキスト レコードが改行文字で区切られていること、およびキーと値の間に設定可能な区切り文字があることを理解しています (デフォルトはタブ)。
1) rawbytes 形式の構造は、レコードまたはキー/値の区切り記号が不要であることを示唆していますが、誰かがこれが事実であることを確認できますか?
2) typedbytes 形式では、キーと値はどのように区切られ、レコードはどのように区切られますか?
3) また、キーは typedbytes と rawbytes 形式でどのようにソートされますか?
python - ストリーミング バイナリ実行可能ファイル
ストリーミング ジョブで、マッパーで実行可能ファイルを呼び出したいと考えています。それはこのようなものです
mapper.py
コマンドは
しかし、その結果、バイナリ ファイルは実行されません。どうしてか分かりません。誰でも私を助けることができます
amazon-s3 - EMR ファイルを 1 つに結合する方法は?
大きなバイナリ ファイルを (2Gb) チャンクに分割し、Amazon S3 にアップロードしました。今、それを 1 つのファイルに結合して、カスタムで処理したい
走ってみた
しかし、ローカル端末への -cat 出力データが原因で失敗しました - リモートでは動作しません...
どうすればこれを行うことができますか?
PS私は猫をストリーミングMRジョブとして実行しようとしました:
この仕事は無事に終わりました。しかし。dir/in に 3 つのファイル パーツがありましたが、現在は /dir/out に 6 つのパーツがあります。
そして、私の出力の一部ではないファイル_SUCCESS ofcource...
そう。ファイルの前に分割された結合方法は?
python - 特定の文字を含まない圧縮データのASCII表現
Pythonを使ってHadoopで大量の漬け込みデータを処理したい。私がやろうとしているのは、データをキー (ファイル ID) として表し、圧縮されたピクルを大きなファイルの値として表すことです。
Hadoop で処理したいファイルにバイナリ コードを ascii として単純に入れようとすると、hadoop ファイルの (キー、値) 構造に干渉する多くの '\t' および '\n' 値が得られます。
私の質問は、Python を使用して一部のデータを圧縮し、特定の文字 (「\t」や「\n」など) を避けて、ASCII ファイルの文字列として表すにはどうすればよいですか?
それとも、私のアプローチは本質的に無効なのでしょうか?
私は本当に助けていただければ幸いです!
hadoop - Hadoop:書き込まれた後に出力ファイルを変更します
概要:hadoopストリーミングで書き込まれた後に各出力ファイルで実行されるアクションを指定できますか?
基本的に、これは、hadoopmapreduce質問の出力をzipする最も簡単で効率的な方法のフォローアップです。キーごとにX
、その値をファイルに書き込み、アーカイブX.txt
に圧縮したいと思います。X.zip
しかし、zip出力ストリームを作成する場合、結果のファイルのキーや名前について何かを伝えるのは難しいため、X.zip
アーカイブに。が含まれることになりますdefault-name.txt
。
アーカイブの内容の名前を変更するのは非常に簡単な操作ですが、どこに配置できますか?私がやりたくないのは、S3からすべてのzipをダウンロードして、その時点でアップロードすることです。
hadoop - hbase の一部のメタ リージョン オンライン例外
4 ノードの hadoop,hbase クラスターがあり、そのうちの 1 つは hadoopmaster および hbasemaster として機能します。残りの 3 つのサーバーは、datanode、regionserver、zookeeper です。最近、(datanode、regionserver、zookeeper) を実行しているマシンの 1 つがクラッシュし、システムが再起動しません。しかし、まだ Hadoop クラスターは正常に動作していますが、オンラインのリージョンがなく、hbase テーブルを表示できないため 、 hbase クラスターに問題が発生しています。注: ダウンしたノードの名前は、コマンドのhadoopslave3 です。
hbase shell
テーブルを作成しようとすると、エラーが発生しました:
コマンドの場合:
それが示している:
マスターログには次のように表示されます。
regionserver(hadoopslave2) ログの 1 つに次のように表示されます。
hadoop - Hadoop でのストリーミング データの受信
Hadoop がデータの連続ストリームを処理できるようにする Hadoop 製品 HStreaming をテストしようとしています。Twitter ストリームにアクセスしましたが、mapreduce プログラムが Twitter からストリーム データを受信していません。ただし、ブラウザー、wget、curl ユーティリティからは同じ Twitter URL が機能します。知りたい - MapReduce プログラムが (ファイアウォールから) http にアクセスするために必要な構成はありますか?
hadoop - "追加" ハイブ cli で
私は何かが欲しい
ハイブの作業ディレクトリにディレクトリを追加します。
ハイブ0.7を使用しています。
これは、マッパー/リデューサー スクリプトで使用する Python パッケージを追加するために必要です。
私のオプションは何ですか?
hadoop - hadoopストリーミングはノードIDを取得します
Hadoopストリーミングでは、特定のタスクを処理するノードのIDを取得する方法はありますか?
例えとして、このスニペットはタスクの入力ファイルの名前を示します。
os.environ["map_node_id"]のようなものを探しています。ノードへの一意のハンドルはすべて機能します...
python - HadoopストリーミングでPythonスクリプトから有益なエラーを取得する方法はありますか?
私はHadoopストリーミングでPythonを使用しています。注意深い単体テストにもかかわらず、エラーは必然的に忍び寄ります。そうなると、このエラーメッセージはhadoopが提供するすべてのものです。
このメッセージは、デバッグには非常に役立ちません。
HadoopストリーミングでPythonスクリプトから有益なエラーを取得する方法はありますか?