python - 特定の文字を含まない圧縮データのASCII表現

翻译自：https://stackoverflow.com/questions/12079226 2012-08-22T18:29:01.950

94 次

Pythonを使ってHadoopで大量の漬け込みデータを処理したい。私がやろうとしているのは、データをキー (ファイル ID) として表し、圧縮されたピクルを大きなファイルの値として表すことです。

Hadoop で処理したいファイルにバイナリコードを ascii として単純に入れようとすると、hadoop ファイルの (キー、値) 構造に干渉する多くの '\t' および '\n' 値が得られます。

私の質問は、Python を使用して一部のデータを圧縮し、特定の文字 (「\t」や「\n」など) を避けて、ASCII ファイルの文字列として表すにはどうすればよいですか?

それとも、私のアプローチは本質的に無効なのでしょうか?

私は本当に助けていただければ幸いです！

2 に答える 2