問題タブ [apache-kudu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
impala - Impala 同時クエリの遅延
私のクラスター構成は次のとおりです。
- 3 ノード クラスタ
- クラスタ ノードあたり 128 GB の RAM。
- プロセッサー: クラスター ノードごとに 16 コアのハイパースレッド。3 つのノードすべてに Kudu マスターと T-Server および Impala サーバーがあり、ノードの 1 つには Impala カタログと Impala StateStore があります。
私の問題は次のとおりです。
1) 同時クエリの実行中に、Impala での動的リソース プールを理解するのに苦労しました。私はmem_limitにまだ運がないことを試みました。静的サービス プールも試しましたが、それでも必要な同時実行性を達成できませんでした。アドミッション コントロールを使用しても、必要な同時実行性が達成されませんでした。
2) クエリを送信した後、クラスター ノードの 1 つが負荷を受けていません。クエリの概要でこれを確認しました。負荷を受けていないノードでNUM_NODESに 0 と 1 を指定しようとしましたが、ノードが負荷を受けていないことが要約で示されます。
python-3.x - PySpark データフレームから Kudu テーブルを簡単に作成することは可能ですか?
理想的には、切り取った次のコードが機能します。
ただし、 client.create_table は、データフレームからの構造体ではなく、kudu.schema.Schema を想定しています。ただし、Scala ではこれを行うことができます ( https://kudu.apache.org/docs/developing.htmlから):
kuduスキーマビルダーで各列を手動で定義せずに、PySparkで同じことができるかどうか疑問に思っていましたか?