cassandra - How to make workers to query only local cassandra nodes?

Question

Suppose I have several machines each having spark worker and cassandra node installed. Is it possible to require each spark worker to query only its local cassandra node (on the same machine), so that no network operation involved when I do joinWithCassandraTable after repartitionByCassandraReplica using spark-cassandra-connector, so each spark worker fetches data from its local storage?

score 2 · Accepted Answer

Spark-Cassandra コネクタ内では、LocalNodeFirstLoadBalancingPolicyがこの作業を処理します。最初にローカルノードを優先し、次に同じ DC 内のノードをチェックします。具体的java.net.NetworkInterfaceには、次のように、ローカルアドレスのリスト内のアドレスと一致するホストリスト内のアドレスを検索するために、ローカルノードが決定されます。

private val localAddresses =
  NetworkInterface.getNetworkInterfaces.flatMap(_.getInetAddresses).toSet

/** Returns true if given host is local host */
def isLocalHost(host: Host): Boolean = {
  val hostAddress = host.getAddress
  hostAddress.isLoopbackAddress || localAddresses.contains(hostAddress)
}

このロジックは、クエリの候補ホストのリストを返すクエリプランの作成に使用されます。プランタイプ (トークン対応または非対応) に関係なく、リストの最初のホストは、存在する場合は常にローカルホストです。

cassandra - How to make workers to query only local cassandra nodes?

1 に答える 1

Related

Reference