私はCassandraデータでPigを使用して、命令的に書くことはほとんど不可能な、あらゆる種類の驚くべきグループ化の偉業を成し遂げてきました. 私は DataStax の Hadoop と Cassandra の統合を使用していますが、これは非常に優れていると言わざるを得ません。そんな奴らに脱帽!!
私はかなり小さなサンドボックス クラスター (2 ノード) を持っており、このシステムをいくつかのテストに使用しています。~53M 行 (それぞれ約 350 バイト) の CQL テーブルがあり、Mapper が後でこれらの 53M 行を処理するのに非常に長い時間がかかることに気付きました。ログを調べ始めたところ、マップが繰り返し流出していることがわかります (マッパーから 177 の流出を見ました)。これが問題の一部だと思います。
CassandraInputFormat と JobConfig の組み合わせは単一のマッパーのみを作成するため、このマッパーはテーブルから 100% の行を読み取る必要があります。私はこれを反平行と呼んでいます:)
さて、この写真には次のような多くの歯車が働いています。
- 2 つの物理ノード
- Hadoop ノードは「Analytics」DC (デフォルト構成) にありますが、物理的には同じラックにあります。
- LOCAL_QUORUM を使用してジョブを表示できます
より多くのマッパーを実行できるように、Pig でより多くの入力分割を作成する方法を教えてもらえますか? 23 スロットあります。常に1つだけを使用するのは残念です。
それとも、私は完全に怒っていて、問題を理解していませんか? 私は両方の種類の答えを歓迎します!