java - 巨大なデータセット（5 GB）用の高速アクセスKey-Valueストレージを使用するための最良の方法

Question

サイズが最大5GBのデータセットがあります。この大きなデータセットには、行ごとにキーと値のペアがあります。ここで、これをキーの値について数十億回読み取る必要があります。

私はすでにMapDBのディスクベースのアプローチを試しましたが、それはスローConcurrentModification Exceptionされ、実稼働環境で使用するにはまだ十分に成熟していません。

また、それをDBに入れて、何十億回も呼び出しを行いたくありません（ただし、ここで特定のレベルのメモリ内キャッシュを実行できます）。

基本的に、Hadoopのジョブステップのマッパー/リデューサーでこれらのKey-Valueデータセットにアクセスする必要があります。

score 3 · Accepted Answer

いろいろ試した結果、現在は SQLite を使用しています。

以下は私たちがしたことです：

すべてのキーと値のペアのデータを事前定義されたデータベースファイルに読み込みます (キー列にインデックスを付けましたが、ファイルサイズは大きくなりましたが、それだけの価値がありました)。
このファイル (key-value.db) を S3 に保存します。
これは、分散キャッシュとして Hadoop ジョブに渡されます。
Mapper/Reducer の Configure で db ファイルへの接続が開かれます (約 50 ms かかります)。
map/reduce メソッドで、キーを使用してこのデータベースにクエリを実行します (ごくわずかな時間しかかからず、プロファイリングする必要さえありませんでした。それはごくわずかでした!)
Mapper/Reducer の cleanup メソッドで接続を閉じました

score 0 · Accepted Answer

これにelastic-map-reduceのタグを付けていることに気づきました...AWSで実行している場合は、DynamoDBが適切かもしれません。

また、明確にしておきたいのは、このデータセットがMapReduceジョブへの入力になるのか、それともMapReduceジョブ中にランダムにアクセスされる補足データセットなのかということです。

score 0 · Accepted Answer

Redisを試してください。これはまさにあなたが必要としているもののようです。

score 0 · Accepted Answer

私はOracle Berkerley DB Java Editionを試してみます。これは Maps をサポートし、成熟しておりスケーラブルです。

4 に答える 4