サイズが最大5GBのデータセットがあります。この大きなデータセットには、行ごとにキーと値のペアがあります。ここで、これをキーの値について数十億回読み取る必要があります。
私はすでにMapDBのディスクベースのアプローチを試しましたが、それはスローConcurrentModification Exception
され、実稼働環境で使用するにはまだ十分に成熟していません。
また、それをDBに入れて、何十億回も呼び出しを行いたくありません(ただし、ここで特定のレベルのメモリ内キャッシュを実行できます)。
基本的に、Hadoopのジョブステップのマッパー/リデューサーでこれらのKey-Valueデータセットにアクセスする必要があります。