これはより一般的な質問ですが、ここでは特定の状況に関する詳細なヘルプを見つけることができません。大きなサイズのファイルが多数あります (それぞれ平均 2GB)。これらのファイルには、個別のエントリに解決するために別のライブラリで読み取る必要があるカスタム形式でコーディングされたエントリが含まれています。MapReduce を使用してこれらのファイルを解析したいのですが、デフォルトの InputFormat と InputSplit はファイルを 1 行ずつ処理しますが、これは私が望むものではありません。ファイルを分割する方法 (各分割にはいくつかのエントリを含める必要があります) とレコードを生成する方法 (各エントリはキー/値のペアにマップする必要があります) を指定する必要があるようです。
これを実現するには、どのメソッドをオーバーライドする必要がありますか?