cassandra - Datastax Enterprise 5.0 クラスターのリバランス試行が失敗する

Question

4 台のマシンからなる DSE 5.0 クラスターがあります。データの取り込み中、これらのマシンの 1 つがほとんどのデータ (100G) を保存し、他の 3 つのマシンはそれよりも少ない量 (それぞれ約 15G) を保存しました。なぜこれが起こったのかわかりませんが、調査する予定であり、おそらく別の質問で尋ねます.

ここで、クラスターのリバランスを試みます。私が認識している唯一の方法は、OpsCenter でCluster Actions->をクリックすることです。Rebalanceリバランスが開始され、約 5 分後に次のエラーで再現可能に中止されます。

Rebalance Failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is: 
java.net.SocketTimeoutException: Read timed out

一部のデータはリバランスプレビューで提案されているとおりに送信されますが、ほとんどのデータはそうではありません。

イベントログ:

Error   Rebalance failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is: java.net.SocketTimeoutException: Read timed out       admin
Info    Moving node xx.xx.xx.xx from token 5848419665553670365 to 2542108353485192999   NODE-04 
Info    Starting rebalance

何が原因で、どのように調査して修正すればよいですか?

クラスターは、Azure 上の 4 つの専用マシンにデプロイされます。

score 0 · Accepted Answer

データのロード後にクラスターを再調整する必要はありません。おそらく、データモデルをさらに深く掘り下げて、パーティションキーがリング全体にデータを均等に分散するものであることを確認する必要があります。この場合、ホットスポットが疑われます。

cassandra - Datastax Enterprise 5.0 クラスターのリバランス試行が失敗する

1 に答える 1

Related

Reference