Spark SQL を使用して、Cassandra データベースからデータを取得しました。
DataFrame customers = sqlContext.cassandraSql("SELECT email, first_name, last_name FROM customer " +
"WHERE CAST(store_id as string) = '" + storeId + "'");
その後、いくつかのフィルタリングを行い、このデータを次のような別の Cassandra テーブルに保存したいと考えています。
store_id uuid,
report_name text,
report_time timestamp,
sharder int,
customer_email text,
count int static,
firts_name text,
last_name text,
PRIMARY KEY ((store_id, report_name, report_time, sharder), customer_email)
DataFrame
を新しいテーブルに保存するときに、これらの追加のプロパティを追加するにはどうすればよいですか? また、この例を使用して Cassandra の長い行を分割するベスト プラクティスは何ですか? には 4,000 ~ 6,000 のレコードがあると予想されるDataFrame
ため、長い行をシャーディングすることは必須ですが、レコードを数えてsharder
特定の数のアイテムの を変更することが、Spark または Cassandra でのベスト プラクティスであるかどうかはわかりません。