python - 標準のパイピングのように動作する 2 つのコマンドから 1 つの Linux シェルコマンドを作成するにはどうすればよいですか?

Question

Hadoop Streaming を使用してなどの 2 つのコマンドを実行しようとしていますgunzip | map_to_old_format.pyが、gzip で "|.gz not found" というエラーが発生するか、これらの行に沿って何かが発生します (Hadoop を介して実行した場合のみ.. コマンドラインで実行すると動作します)。大丈夫）。

Python でその場で gunzip する方法がわからないので、このコマンドを組み合わせて実行するシェルスクリプトを 1 つ作成したいと思います (例: gunzip_and_map_to_old.sh)。私はこれを次のように試しましたが、gzip は気に入りませんでした (gzip は「gzip: stdin: not in gzip format」と文句を言います):

#!/bin/bash
while read data; do
    echo $data | gunzip | map_to_old_format.py $2
done

python gunzip に関しては、ここでf = gzip.GzipFile("", "rb", fileobj=sys.stdin)説明されている Wrapper メソッドと同様に試しました。

score 2 · Accepted Answer

私は Hadoop について何も知りませんが、はの行であり、それ自体はおそらく gzip 形式でecho $data | gunzipはないため、機能しないと推測します。データを 1 行ずつ渡す代わりに、bash スクリプトファイルでこれを行うことはできませんか?$datadata$data

#!/bin/bash
gunzip | map_to_old_format.py

次に、次のように gzip ファイルを渡すことで呼び出すことができます。

cat data.gz | gunzip_and_map_to_old.sh

score 1 · Accepted Answer

これは私の正確な質問には答えませんが-jobconf stream.recordreader.compression=gzip、Hadoop コマンドに追加することでバイパスできました (これを学んだソース):

hadoop jar /usr/lib/hadoop/contrib/streaming/hadoop-streaming-*.jar \
    -jobconf stream.recordreader.compression=gzip \
    -D mapred.reduce.tasks=0 \
    -file map_to_old_format.py \
    -mapper map_to_old_format.py \
    -input /mydata/* -output output/newdata

注:シェルスクリプトを使用して上記を実現する方法にまだ興味があるので、可能であればお知らせください。

score 1 · Accepted Answer

Hadoop ストリーミングは通常、TextInputFormat を使用して入力ファイルを読み取り、std in を介して 1 行ずつ Python マッパーに渡します (キーと値を区切るタブ文字を使用します (ほとんどの場合、行番号と行テキスト)。

入力ファイルのファイル拡張子が .gz で終わらない場合、hadoops TextInputFormat は、行を 1 行ずつ渡す前に、ファイルの内容を gunzip と認識しません。他の回答で示唆されているように、プロパティを構成して、hadoop にファイルを gunzip させることができます。

python - 標準のパイピングのように動作する 2 つのコマンドから 1 つの Linux シェル コマンドを作成するにはどうすればよいですか?

3 に答える 3

Related

Reference

python - 標準のパイピングのように動作する 2 つのコマンドから 1 つの Linux シェルコマンドを作成するにはどうすればよいですか?