hadoop - マッパー間でメモリデータの共通ルックアップを共有する: Hadoop

Question

30 以上のマッパーがあり、各マッパーはメモリ内マップである共通のルックアップデータを使用しています。各マッパーでは、セットアップ関数でこのルックアップデータをロードする必要があります。Hbase テーブルやいくつかの rdbms データベースでクエリと計算を行うことにより、このルックアップデータを計算します。各マッパーから同じことを行っているため、上記の共通タスクは各マッパーで 30 回実行されます。

とにかく、mapReduceジョブを送信する前にそのルックアップデータを計算してどこかに設定できるので、mappesから直接行ってその値を(メモリ構造で)取得できますか? 構成などのどこかに保存します...ルックアップの生成は重いタスクであり、これには多くの時間がかかります。

それがルックアップファイルだった場合、分散キャッシュを使用していましたが、その動的計算はファイルに保存されませんでした。

この一般的な問題の解決策を提案してください。

score 1 · Accepted Answer

データを生成してから、分散キャッシュにリンクされたHDFSに保存することはできませんか？

使用できるもう1つのトリック（JVMの再利用を使用していて、小さなクラスターを使用している場合）は、マッパーでルックアップマップを静的にし、セットでnull以外のチェックを実行して、データのみを計算することです。そのタスクトラッカーの最初のマップインスタンスで。

hadoop - マッパー間でメモリ データの共通ルックアップを共有する: Hadoop

1 に答える 1

Related

Reference

hadoop - マッパー間でメモリデータの共通ルックアップを共有する: Hadoop