0

Pythonを使ってHadoopで大量の漬け込みデータを処理したい。私がやろうとしているのは、データをキー (ファイル ID) として表し、圧縮されたピクルを大きなファイルの値として表すことです。

Hadoop で処理したいファイルにバイナリ コードを ascii として単純に入れようとすると、hadoop ファイルの (キー、値) 構造に干渉する多くの '\t' および '\n' 値が得られます。

私の質問は、Python を使用して一部のデータを圧縮し、特定の文字 (「\t」や「\n」など) を避けて、ASCII ファイルの文字列として表すにはどうすればよいですか?

それとも、私のアプローチは本質的に無効なのでしょうか?

私は本当に助けていただければ幸いです!

4

2 に答える 2