問題タブ [hbase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hive は HBase と比べてどうですか?
最近リリースされた ( http://mirror.facebook.com/facebook/hive/hadoop-0.17/ ) Hive と HBase のパフォーマンスの比較に興味があります。Hive で使用される SQL に似たインターフェイスは、実装した HBase API よりもはるかに優れています。
hadoop - Hbase/Hadoopクエリヘルプ
私は友人と一緒に、Hbaseを利用してデータを保存するプロジェクトに取り組んでいます。良いクエリの例はありますか?SQLランドで単純なクエリを記述できる場合、RowResultのリストを反復処理するために大量のJavaコードを記述しているようです。私は何かが足りないのですか?それとも、Hbaseに何かが欠けていますか?
ruby-on-rails - 数十億のレコード アプリのフロントエンドとしての Ruby On Rails/Merb
Ruby on Rails または Merb で記述された、数十億のレコードを持つデータを処理するアプリケーションのバックエンド ソリューションを探しています。私は分散モデルを使用することになっていると感じていますが、現時点では
私が見た HBase ソリューションの問題 -- Ruby のサポートはあまり強力ではなく、Couchdb はまだバージョン 1.0 に達していません。
このような大量のデータに何を使用するかについての提案はありますか?
データは、時には一度に 30 ~ 40Mb のかなり高速なインポートを必要としますが、インポートはチャンクで行われます。そのため、データの約 95% は読み取り専用になります。
rdbms - Hbase スキーマの設計方法
この RDBM テーブル ( Entity-attribute-value_model ) があるとします。
スケーリングの問題により、HBase を使用したいと考えています。
Hbase テーブルにアクセスする唯一の方法は、主キー (カーソル) を使用することです。特定のキーのカーソルを取得し、行を 1 つずつ反復できます。
問題は、私の場合、3 つの列すべてを反復できるようにしたいということです。例えば :
- 指定されたエンティティIDについて、そのすべての属性と値を取得したい
- 特定の属性名と値に対して、すべてのentitiIDSが必要です...
したがって、私が持っていた1つのアイデアは、データを保持する1つのHbaseテーブル(エンティティIDをプライマリインデックスとして持つテーブルDATA)と、2つの「インデックス」テーブルを構築することです。
各インデックス テーブルは、DATA テーブルのポインター (entityID) のリストを保持します。
それは合理的なアプローチですか?それともHbaseの概念の「乱用」ですか?
HBase では、主キーによる get 操作と行範囲のスキャン (カーソルを考えてください) が可能です。(スケールとセカンダリ インデックスの必要性の両方がある場合でも、心配する必要はありません。Lucene が助けてくれます! しかし、それは別の投稿です。)
Lucene がどのように役立つか知っていますか?
-- よなたん
database-design - Hadoop Hbase:列ファミリーをテーブル全体に分散させるかどうか
Hbaseのドキュメントでは、物理的なストレージは列ファミリーによって行われるため、同様の列を列ファミリーにグループ化する必要があることが明確になっています。
しかし、列グループごとに別々のテーブルを持つのではなく、2つの列ファミリーを同じテーブルに配置することはどういう意味ですか?この方法でテーブルを「パーティション化」する方が理にかなっている特定のケースと、1つの「ワイド」テーブルがより適切に機能するケースはありますか?
個別のテーブルは個別の「行領域」になるはずです。これは、一部の列ファミリー(全体として)が非常にまばらな場合に役立ちます。逆に、列のファミリをまとめておくと有利なのはいつですか。
php - thrift を使用して HBase に php 配列を書き込む
Thrift php クライアントがあり、HBase テーブルに書き込みたいのですが、次のことを行っています。
問題は、HBase に挿入するときに、配列である値が、配列の要素を格納する代わりに「配列」に変換されることです。リストを配列(またはバイト配列)として保存するにはどうすればよいですか
store - 列ストアデータベースのセカンダリインデックス
セカンダリインデックスをサポートする列ストアデータベースはありますか?HBaseがそうすることは知っていますが、まだありません。
ハガイ書。
ruby-on-rails - ActiveRecordアダプターの作成
現在存在しないので、 HBaseデータベース用に独自のActiveRecordアダプターを作成したいと思います。しかし、私はしばらくオンラインで検索していて、ActiveRecordアダプターの作成方法に関する優れたリソースを見つけることができません。これをどのように行いますか、または推奨できるリンクはありますか?
schema - hbase を使用したフィード アグリゲーター。スキーマをどのように設計するか?
多数の rss/atom フィードを監視するプロジェクトに取り組んでいます。データ ストレージに hbase を使用したいのですが、スキーマの設計に問題があります。最初の反復では、集計フィード (すべてのフィードからの最新の 100 件の投稿を時系列順に並べたもの) を生成できるようにしたいと考えています。
現在、私は2つのテーブルを使用しています:
集約されたフィード用のある種のインデックス テーブルが必要です。それをどのように構築すればよいですか?この種のアプリケーションに hbase は適していますか?
質問の更新: 以下にリストされているようなクエリに効率的に応答できるスキーマを (hbase で) 設計することは可能ですか?
hadoop - BigTable で OLAP を実行できますか?
以前は、MySQL で実行される OLAP キューブを使用して WebAnalytics を構築していました。さて、私が使用した OLAP キューブは、各行が基本的に測定値または測定値の集計セットである単純な大きなテーブルです (OK、それよりも少し賢く格納されています)。各測定値には、一連のディメンション (つまり、どのページ名、ユーザーエージェント、IP など) と一連の値 (つまり、ページビュー数、訪問者数など) があります。
このようなテーブルで実行するクエリは、通常、次の形式 (メタ SQL) です。
したがって、前述のフィルターを使用して、選択した日の各時間の合計を取得します。障害の 1 つは、これらのキューブは通常、完全なテーブル スキャンを意味し (さまざまな理由)、これは、これらのものを作成できるサイズ (MiB 単位) の実際的な制限を意味することでした。
私は現在、Hadoop などの詳細を学んでいます。
上記のクエリを BigTable で mapreduce として実行するのは簡単に見えます。「hour」をキーにして、マップをフィルター処理し、値を合計して reduce するだけです。
バッチ モードではなく、BigTable の種類のシステムで、上に示したような (または少なくとも同じ出力で) クエリを実行できますか?
そうでない場合; BigTable/Hadoop/HBase/Hive などの領域でこのようなことを行うための適切なテクノロジは何ですか?