0

私は現在、推奨アプリケーションに取り組んでおり、map/reduce ジョブに Hadoop と pig で cassandra を使用しています。列名のプロパティを利用するために、私たちのチームは値のない列を使用してデータを保存し、列名を集計することにしました。たとえば、特定のコンテンツのすべてのヒットは単一行の列ファミリーに保存され、各列は次の構造を使用したコンテンツ:

rowkey = 'single_row' {
    id_content:hit_date, -
    .
    .
    .
}

このスキーマでは、スキニーではなく幅の広い行が取得されます。問題は、このスキーマを使用して cassandra にデータを保存するために、Pig でデータを操作する必要があるかどうかです。

4

1 に答える 1

0

あなたのコメントから、複合列を使用しているかどうか、またはid_contentとhit_dateを連結しているだけかどうかはわかりません。

通常の (つまり、非複合) 列の場合、スキーマは次のとおりです。

(key, {(col_name, col_value), ...})

複合列の場合、スキーマは次のようになると思います。

(key, {((col_name_part_1, col_name_part_2), col_value), ...})

この評価 (複合列の場合) は、 https://issues.apache.org/jira/browse/CASSANDRA-3684に提出されたパッチの読み取りに基づいています。

于 2012-05-24T14:56:24.467 に答える