1

ある形式のバイナリ ファイルを SequenceFile に変換したいと考えています。

stdin でその形式を取り、必要なものを出力できる Python スクリプトがあります。

入力形式は行ベースではありません。個々のレコード自体がバイナリであるため、出力形式を \t で区切ったり、\n で行に分割したりすることはできません。

Hadoop ストリーミング インターフェイスを使用してバイナリ形式を使用できますか? バイナリ出力形式を生成するにはどうすればよいですか?

特に断りのない限り、答えは「いいえ」だと思います。

4

1 に答える 1

0

NullWritable を出力として使用し、SequenceFile を Python スクリプト内で直接生成することを検討してください。github で hadoop-python プロジェクトを検索して、候補コードを確認できます。確かに少し大きい/重いですが、シーケンスファイルの生成を処理します。

于 2013-03-03T00:44:45.377 に答える