問題タブ [snappydata]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - SnappyData snappy-sql PUT INTO 原因エラー:spark.sql.execution.id は既に設定されています
SnappyData SQL シェル (snappy-sql) を使用し、SQL ステートメント (PUT INTO) を実行していたところ、エラーが発生しました。
これが私がやったことです: https://www.snappydata.io/download (v0.8) から SnappyData バイナリをダウンロードします。それを解凍し、実行しました
エラーを検索すると (spark.sql.execution.id は既に設定されています)、 https ://issues.apache.org/jira/browse/SPARK-13747 (SQL での同時実行は Scala ForkJoinPool では機能しません) につながります。 Spark 2.2.0 で修正されたバグのようです。
これは、SnappyData がまだ spark 2.0 を使用していることが原因である可能性があります (少なくとも現在、github では、spark 2.0 に移動したと表示されています)。しかし、よくわかりません。
PUT INTO
可能であればSnappyDataのステートメントを使用しようとしていますが、誰かがこの問題を手伝ってくれれば大歓迎です。前もって感謝します :)
join - SnappyData は、1 つの物理サーバー セットアップで併置結合されます
64 個の CPU コアと 512 GB のメモリを備えた 1 台のサーバーで構成された SnappyData で多数 (現在 100M - 1B) の行を持つ 2 つのテーブルを結合しており、連結結合を利用したいと考えています。ただし、ドキュメントの説明は、連結結合がノードごとのレベルで発生することを暗示しているようです。
私が実際に必要としているのは、バケットごとのレベルのコロケーション結合 (またはパーティション結合) のようなものであり、ほとんどの場合、合計 CPU 使用率が約 10% 以下であるため、サーバーを最大限に活用していません。
結合には、Rowstore と SQL ステートメントを使用しています。そして、シングル ノード セットアップ スクリプト (snappy-start-all.sh) を使用して SnappyData をセットアップし、1 つのリード、1 つのサーバー、1 つのロケーターを使用して、より多くのメモリと CPU コアを使用するように少しカスタマイズします。
conf/リード
conf/サーバー
conf/ロケーター
この問題を解決する方法を理解できませんでした。私の質問は次のとおりです。
- 連結結合はどのように正確に機能しますか? コロケーション結合は、ノード レベルごと、バケット レベルごと、またはその間のレベルで行われますか? バケット番号を設定する以外に、これについて微調整できることはありますか?
- 連結された結合に加えて、結合列にインデックスを作成することは役に立ちますか?
- 構成はワークロードに適していますか? または、リソースを完全に利用するには複数のサーバーを設定する必要がありますか?
- 設定に問題がないように見える場合、CPU 使用率が低いのは、偏ったハッシュ パーティショニング スキームが原因である可能性があります。
上記の質問のいずれかへの情報またはポインタ (1 つの投稿で多くの質問をして申し訳ありません) をいただければ幸いです :)
アップデート:
2 行テーブルのスキーマは次のようになります (列はすべて整数型です)。
結合結果には次が含まれます: Table_C(key1, key2, value1, value2, value3, value4, value5)
また、key1 は最大 200 の異なる値、key2 は最大 2M の異なる値にすることができます。また、(key1, key2) の分布は偏っており、一意ではありません。少数 (<5%) は非常に頻繁に発生しますが、ほとんどの場合はそうではありません。
postgresql - SnappyData データ型の互換性
新しいデータベースを作成し、Postgresql から SnappyData にスキーマ構造をインポートしているので、各データ型を置き換えるために何を使用するかという問題に取り組んでいます。最初に、timestamp、real、double、long (座標)、および string と互換性のあるデータを取得するには、何を使用すればよいでしょうか? ヘルプとドキュメントを検索しましたが、適切な説明が見つかりませんでした...