多数の rss/atom フィードを監視するプロジェクトに取り組んでいます。データ ストレージに hbase を使用したいのですが、スキーマの設計に問題があります。最初の反復では、集計フィード (すべてのフィードからの最新の 100 件の投稿を時系列順に並べたもの) を生成できるようにしたいと考えています。
現在、私は2つのテーブルを使用しています:
Feeds: column families Content and Meta : raw feed stored in Content:raw
Urls: column families Content and Meta : raw post version store in Content:raw and the rest of the data found in RSS stored in Meta
集約されたフィード用のある種のインデックス テーブルが必要です。それをどのように構築すればよいですか?この種のアプリケーションに hbase は適していますか?
質問の更新: 以下にリストされているようなクエリに効率的に応答できるスキーマを (hbase で) 設計することは可能ですか?
SELECT data FROM Urls ORDER BY date DESC LIMIT 100