ある形式のバイナリ ファイルを SequenceFile に変換したいと考えています。
stdin でその形式を取り、必要なものを出力できる Python スクリプトがあります。
入力形式は行ベースではありません。個々のレコード自体がバイナリであるため、出力形式を \t で区切ったり、\n で行に分割したりすることはできません。
Hadoop ストリーミング インターフェイスを使用してバイナリ形式を使用できますか? バイナリ出力形式を生成するにはどうすればよいですか?
特に断りのない限り、答えは「いいえ」だと思います。