cassandra - ある cassandra クラスターから別の cassandra クラスターに列ファミリーをコピーする方法は?

Question

ある cassandra クラスターから別の cassandra クラスターに列ファミリーをコピーする方法は?

シナリオ：

ホストの IP (ソースクラスターとターゲットクラスターの両方)、ポート、key_space 名、および column_family 名しかありません。
既にターゲットクラスターにメタデータを作成しています (データのみをコピーする必要があります)。
最も優先的には、spark-cassandra コネクタ JAVA API を使用して、これを単一/複数の Spark ジョブ (中間で DataFrame を作成してから保存する) で実行したいと考えています。
datastax の cassandra-java ドライバーを使用して優先的にモデレートします。
cassandra-jdbc ドライバーと spark-cassandra コネクター JAVA API を使用することを優先しません。

事前に感謝します。

score 3 · Accepted Answer

既存のクラスターでスナップショットを作成し、ターゲットクラスターでバルクローダーを使用します。Spark は必要ありません (そのようにすることもできます)。

手順に関するドキュメントは次のとおりですが、実行する必要があることの概要を説明します。

既存のクラスターでスナップショットを作成する
scpスナップショットを新しいクラスタのノードに送信 ( )
スキーマのクローンを作成します (すでにこれを行っていると言っていました)
一括ローダーを使用して、sstables をスナップショットから新しいクラスターにストリーミングします。

score 3 · Accepted Answer

多くの努力をした後、これに対する解決策を見つけました。この解決策は非常に単純でクレイジーです。これは、spark を使用して非常にうまく行うことができます。

私たちがしていたこと（うまくいきませんでした）：

// Reading from first cassandra cluster

dataframe = cassandraSQLContext.read().format("org.apache.spark.sql.cassandra").options("otherOptionsMap").option("spark.cassandra.connection.host","firstClusterIP").load();

// Writing to second cassandra cluster

dataframe.write.mode("saveMode").options("otherOptionsMap").option("spark.cassandra.connection.host","secondClusterIP").save();

何がうまくいったか：

// Reading from first cassandra cluster

dataframe = cassandraSQLContext.read().format("org.apache.spark.sql.cassandra").options("otherOptionsMap").option("spark_cassandra_connection_host","firstClusterIP").load();

// Writing to second cassandra cluster

dataframe.write.mode("saveMode").options("otherOptionsMap")option("spark_cassandra_connection_host","secondClusterIP").save();

そうです、spark-cassandra ホストプロパティのプロパティのperiod( .) を underscore( _)に変更するだけです。これが spark-cassandra コネクタのバグかどうかはわかりません。

score 2 · Accepted Answer

spark-cassandra-connectorを使用している場合、デフォルトで複数のクラスターの接続がサポートされます。関連するコードスニペットは次のとおりです。

import com.datastax.spark.connector._
import com.datastax.spark.connector.cql._

import org.apache.spark.SparkContext


def twoClusterExample ( sc: SparkContext) = {
  val connectorToClusterOne = CassandraConnector(sc.getConf.set("spark.cassandra.connection.host", "127.0.0.1"))
  val connectorToClusterTwo = CassandraConnector(sc.getConf.set("spark.cassandra.connection.host", "127.0.0.2"))

  val rddFromClusterOne = {
    // Sets connectorToClusterOne as default connection for everything in this code block
    implicit val c = connectorToClusterOne
    sc.cassandraTable("ks","tab")
  }

  {
    //Sets connectorToClusterTwo as the default connection for everything in this code block
    implicit val c = connectorToClusterTwo
    rddFromClusterOne.saveToCassandra("ks","tab")
  }

}

関連するドキュメントとサンプルコードスニペットを次に示します。

cassandra - ある cassandra クラスターから別の cassandra クラスターに列ファミリーをコピーする方法は?

4 に答える 4

Related

Reference