HBaseで行IDを設計する際に、矛盾する2つのアドバイスを見てきました(具体的には、Cassandraにも当てはまると思います)。
- データの局所性を利用するために頻繁に集約するキーをグループ化します。(White、Hadoop:The Definitive Guideと私はHBaseサイトでそれを見たことを思い出しますが、見つけることができません...)
- キーを分散して、作業を複数のマシンに分散できるようにします(Twitter、Pig、およびHBase(Twitterスライド14))
どちらが最適かはユースケースによって異なると思いますが、どちらの戦略の経験もありますか?