パラメータに応じて、入力ディレクトリからの特定の(少数の!)入力ファイルのみを必要とするHadoopアプリケーションがあります。私の質問は今です:それらのファイルをスキップするのに最適な場所はどこですか(できるだけ早く読んでください)?今、私はそれを処理するためにRecordReaderをカスタマイズしましたが、それらのファイルをもっと早くスキップできるかどうか疑問に思いました。私の現在の実装では、関連性のないファイルのために、hadoopにはまだ大きなオーバーヘッドがあります。
たぶん、特定の入力ファイルが必要かどうかを確認するのは非常に簡単だということを付け加えておきます。ファイル名がパラメータで始まる場合は、それが必要です。入力ディレクトリを階層的に構造化することは解決策かもしれませんが、すべてのファイルが特定のディレクトリで孤独になるため、私のプロジェクトではあまりありそうにありません。