問題タブ [column-oriented]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hbase - 10 のリージョン サーバーで 5 TB のデータを含むテーブルがある場合の書き込みパフォーマンスの向上
10 の Regionserver を持つ 5 TB のデータを含むテーブルがあるとします。テーブル内の広く分配された行 ID へのプットを続行したいと考えています。領域サイズが 256 MB であることを考慮してください。
python - Python ORM から NumPy 配列へ
numpy ORM を使用してデータ シミュレーション フレームワークを構築しています。ここでは、numpy 配列を直接操作するよりも、クラスやオブジェクトを操作する方がはるかに便利です。それにもかかわらず、シミュレーションの出力は numpy array である必要があります。また、blockz はバックエンドとして非常に興味深いものです。
すべてのオブジェクト属性を numpy 配列にマップしたいと思います。したがって、numpy 配列は、クラスの列指向の「永続的」ストレージのように機能します。また、numpy(pandas) フレームワークを使用して計算できるオブジェクトに「新しい」属性をリンクする必要があります。そして、同じバックエンドを使用して、それに応じてそれらをオブジェクトにリンクするだけです。
そのようなアプローチの解決策はありますか?HPC の方法で構築する方法をお勧めしますか? 私はdjango-pandasだけを見つけました。PyTables は、新しい列属性の追加が非常に遅いです。
次のようなもの (np_array へのポインターに取り組んでいます):
hadoop - 列指向のファイル形式がストリーミング書き込みに適していないのはなぜですか?
Hadoop 決定版ガイド (第 4 版) には、137 ページに段落があります。
列指向の形式は、単一の行ではなく分割された行をメモリにバッファリングする必要があるため、読み取りと書き込みに多くのメモリが必要です。また、(フラッシュ操作または同期操作を介して) 書き込みが発生するタイミングを制御することは通常不可能であるため、書き込みプロセスが失敗した場合に現在のファイルを回復できないため、列指向の形式はストリーミング書き込みには適していません。一方、シーケンス ファイルや Avro データファイルなどの行指向の形式は、ライターの障害後、最後の同期ポイントまで読み取ることができます。Flume (第 14 章を参照) が行指向のフォーマットを使用するのはこのためです。
障害が発生した場合に現在のブロックを回復できない理由がわかりません。誰かがこのステートメントに関する技術的な問題を説明できますか:
いつ書き込みが発生するかを制御することはできません (フラッシュまたは同期操作を介して)
key-value - URL 短縮サービスにはどの NoSQL データベースを使用すればよいですか?
URL短縮サービスを構築しているuniのプロジェクトに取り組んでいます。さまざまなタイプの NoSQL データベースを調査しましたが、どれが自分の目的に適しているのか、またその理由がわかりません。
キー/値データベース、ドキュメント指向、列指向、またはグラフから選択できます。グラフは私の目標には適していないと確信しています。
何か提案はありますか?
cassandra - UML から列指向の NoSQL データベースへのルールのマッピング
私は、UML クラス図を NoSQL cassandra データベースに変換する新しいプロジェクトに取り組んでいます。リレーショナル モデルに類似した基本的な変換ルールを見つけるのに苦労しています。カサンドラのドキュメントを読んだように、それはクエリ指向のモデリングです。しかし、それを実装する前に、一般的なルールの概念はありますか? 助けてください
performance - 列指向データベースでディスクシークがどのように高速化されますか
私は最近ビッグクエリの作業を開始しました。それらが列指向のデータベースであり、このタイプのデータベースではディスクシークがはるかに高速であることを知りました。
リレーショナルデータベースと比較して、列指向データベースでディスクシークがどのように高速であるかを誰かが説明してくれますか?
database-design - PK ではない列のカウント - Cassandra
そのため、テーブル内の行数を選択できないという問題が発生しています。
私の問題は、「図書館で最も予約されている本を手に入れる」ことです
私が作成したモデル:
クエリ:
モデリングを間違えたような気がします。このテーブルは、PostgreSQL テーブルを適応させたものです。では、各本の予約数を正しく取得するにはどうすればよいでしょうか。この場合、私の PK は何になりますか?