Pythonを使ってHadoopで大量の漬け込みデータを処理したい。私がやろうとしているのは、データをキー (ファイル ID) として表し、圧縮されたピクルを大きなファイルの値として表すことです。
Hadoop で処理したいファイルにバイナリ コードを ascii として単純に入れようとすると、hadoop ファイルの (キー、値) 構造に干渉する多くの '\t' および '\n' 値が得られます。
私の質問は、Python を使用して一部のデータを圧縮し、特定の文字 (「\t」や「\n」など) を避けて、ASCII ファイルの文字列として表すにはどうすればよいですか?
それとも、私のアプローチは本質的に無効なのでしょうか?
私は本当に助けていただければ幸いです!