0


hadoopマルチノードクラスターからimportsvツールを使用してHbaseテーブルに1,000万レコードをロードしています。現在、このタスクには5分かかります。しかし、私はこれのパフォーマンスをどのように改善できるのか疑問に思いました。importtsvツールは、レデューサーをまったく使用していないようです。とにかくこれにレデューサーを使用させることができるかどうか、パフォーマンスを向上させることができるか、またはパフォーマンスを向上させると思われる他の方法をいただければ幸いです。
ありがとうございました。

4

3 に答える 3

1

パフォーマンスに関しては、簡単な答えはありません。5分がネットワークの速度、またはハードディスクの速度に等しい場合は、ソースデータを別の場所に移動するか、ハードウェアを変更する必要があります。

importsvがわかりません。多方向負荷を試してみることをお勧めします。Sqoopを見てください。

于 2012-07-12T16:47:26.637 に答える
1

HfileOutPutFormat、completeBulkLoadToolを使用してImporttsvを試してください。

于 2012-07-14T06:55:38.623 に答える
0

HFileOutputFormatおよびを使用すると、最高のHBaseバルクロードパフォーマンスを得ることができます。CompleteBulkLoad

こちらを確認してください。

于 2013-12-02T15:27:26.933 に答える