AWSでHadoopを使用して処理したいHadoopシーケンスファイルが多数あります。私の既存のコードのほとんどはRubyで書かれているので、AmazonEMRでカスタムRubyMapperおよびReducerスクリプトと一緒にHadoopストリーミングを使用したいと思います。
シーケンスファイルをHadoopストリーミングと統合する方法、および入力がRubyスクリプトに提供される方法に関するドキュメントが見つかりません。SequenceFilesを利用するためにジョブを(EMRで直接、または通常のHadoopコマンドラインで)起動する方法に関するいくつかの指示と、データがスクリプトに提供されることを期待する方法に関するいくつかの情報をいただければ幸いです。
-編集:以前、SequenceFilesではなくStreamFilesを誤って参照していました。私のデータのドキュメントは間違っていたと思いますが、お詫びします。変更すれば答えは簡単です。