Cassandra Hadoop 統合 (MapReduce) に取り組んでいます。RandomPartitioner
より高速な書き込み速度を得るために、以前はデータを挿入していました。次に、MapReduce で Cassandra からそのデータを読み取り、計算を実行する必要があります。
cassandra にある大量のデータから、特定の行キーのデータのみを取得したいのですRandomPartitioner
が、コードにアサーションがあるため、それを行うことができません。
Cassandraレベル自体の行キーに基づいてデータをフィルタリングする方法を教えてください(行キーのハッシュを使用してデータがリージョン全体に分散されていることを知っています)?
セカンダリ インデックスを使用すると (まだどのように機能するかを理解しようとしています)、私の問題は解決しますか、それとも別の方法がありますか?
Cassandra MR を使用して、cassandra に継続的に保存されているデータの KPI を計算したいと考えています。ここで、毎回cassandraからデータ全体を取得することは、私にとってオーバーヘッドのように思えますか? 私が使用している行キーは、「(timestamp/60000)_otherid」のようなものです。この CF には、他の CF に格納されている実際のデータの行キーの参照が含まれています。KPI を計算するには、特定の時間だけ作業し、他の CF からデータを取得して処理します。