「The Definitive Guide to Hadoop」によると、入力形式TextInputFormat
はキーと値のペアを提供します(k, v) = (byte offset, line)
。ただし、MRJob では、マッパー入力のキーは常にNone
です。バイト オフセットをキーとして取得するのは簡単なはずです。これは TextInputFormat が行うことだからです。どうすればこれを入手できますか?
環境変数「map_input_start」を使用して自分でバイトオフセットを計算できることは知っていますが、これは問題を引き起こしているため、オフセットをキーとして取得するだけのより簡単な方法で実行したいと考えています。