問題タブ [hawq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Greenplum、Pivotal HD + Spark、または TB の構造化データ向けの HAWQ?
Greenplum DB に TB の構造化データがあります。データに対して基本的に MapReduce ジョブを実行する必要があります。
このデータが (ストリーミング方式で) メモリに収まるように、少なくとも MapReduce の機能を再実装していることに気付きました。
それから、より完全な解決策を求めて他の場所を探すことにしました。
私は Scala を使用しており、Spark のベンチマークは驚異的であるため、Pivotal HD + Spark を検討しました。しかし、この背後にあるデータストアである HDFS は、Greenplum よりも効率が悪いと思います。(「私は信じる」に注意してください。私が間違っていることを知ってうれしいですが、いくつかの証拠を教えてください。)
そこで、Greenplum ストレージ レイヤーを維持するために、Pivotal の HAWQ を調べました。これは基本的に、Greenplum 上の SQL を使用した Hadoop です。
このアプローチでは多くの機能が失われます。主にSparkの使用。
それとも、組み込みの Greenplum 機能を使用する方がよいのでしょうか?
そのため、どの方法が最善なのかわからないという岐路に立っています。リレーショナル DB モデルに適した TB 規模のデータを処理したいと考えており、Spark と MapReduce の利点を活用したいと考えています。
求めすぎですか?
apache-spark-sql - JDBC ドライバーを介して Spark を HAWQ に接続する
greenplum の odbc/jdbc ドライバー (適切な Pivotal ページからダウンロード) を使用して、Spark から HAWQ に接続しようとしています。
Spark 1.4 を使用して、Python で記述されたサンプル コードを次に示します (すべての大文字には適切な変数の割り当てがあります) ...
...
Spark submit コマンドは、odbc ドライバーをクラスパスに追加します。基本的な sqlContext のインスタンス化で「hello world」を実行しましたが、クラスター上ですべてが正常に動作しています。しかし、HAWQ postgresql db に実際に接続しようとすると、実行されません。
エラー:
何か考えや提案はありますか?「df = sqlContext.read.load...」定義の少なくとも 20 の組み合わせを試しましたが、役に立ちませんでした。
postgresql - Spark から JDBC 経由でテーブル データを抽出するときの PostgreSQL エラー
Spark から HAWQ JDBC への接続が機能していましたが、2 日後にテーブルからデータを抽出する際に問題が発生しました。Spark の構成は何も変更されていません...
簡単なステップ #1 - HAWQ の単純なテーブルからスキーマを出力する SQLContext DataFrame を作成し、HAWQ データベースに接続できます。
どちらが印刷されますか:
しかし、実際にデータを抽出しようとすると:
これらのエラーがポップアップします...
私が試したこと(ただし、より正確な手順がある場合は、もう一度試してください):
- HAWQ マスター ノードで「df -i」を試しましたが、使用率は 1% しかありません
- HAWQ データベースで dbvacuum を試しました (HAWQ では VACUUM ALL は推奨されません)。
- この小さな新しいデータベース(単一のテーブル、3列)を作成しようとしましたが、うまくいきませんでした
これは実際のメモリ不足ではあり得ないので、どこで何がつまずいているのでしょうか??
apache-spark - 125 Gb のデータを抽出するためのスパーク メモリ割り当てを設定しています...ExecutorLostFailure
126 Gb テーブルを HAWQ (PostgreSQL、この場合は 8.2) から Spark にプルしようとしていますが、機能していません。小さいテーブルを問題なくプルできます。これについては、エラーが発生し続けます:
私のクラスターの仕様は次のとおりです: 64 コア、512 Gb の RAM、2 ノード
これは 2 ノードの Spark スタンドアロン クラスターです (信頼してください。もっと多くのノードが必要ですが、それがすべてです)。したがって、1 つのノードを純粋なスレーブとして使用し、もう 1 つのノードにはマスターと他のスレーブの両方を収容します。
spark-submit ジョブでメモリ割り当ての多くの構成を試しました。ここにいくつかをリストしますが、どれも機能しませんでした:
エラーは毎回同じです -- ExecutorLostFailure (executor driver lost)
sql-server - postgresql と同等の SQL Server 日時変換関数 (pivotal hawq)
SQL Server 2012 には以下の SQL スクリプトがあります。データベース変換時に、postgresql (HAWQ 1.3.1) で同様のスクリプトを作成しようとしています。
次のスクリプトを試して書きました。
上記のスクリプトは postgresql にコンパイルされています ( VERSION HAWQ 1.3.1)
また、試してみました:
- ms sql サーバーの convert 関数を postgres に変換して orderdate 列を比較しようとすると、OrderDate の比較は 'MM-01-YYYY' (望ましい結果) として反映される必要がありますが、これは実際には '00-01-0000' ではありません。 「11-01-2015」としての結果
**
- 望ましい結果を得るためのpostgresqlのconvert()関数式はどうなりますか?
**
postgresql - Hawq が : 列 "SoldToAddr2" のデータが欠落している場合のエラーを解決するにはどうすればよいですか?
重要な Hadoop-hawq システムの小さなクラスターがあります。1 つの外部テーブルを読み取る必要があります。
つまり、ext_table から * を選択します
しかし、次のエラーについてHawqの苦情でクエリを発行したとき:
以下を試しました:
ext_table 定義の format 句で異なる特殊文字を試しました。
エラーの詳細:
つまり、行 20 で検出された不良行
重要な hadoop-hawq システムの悪いエラーを解決するためのより良い方法は何ですか?
どんな助けでも大歓迎ですか?
sql - HAWQ はサイクル (while または for, use plpgsql) で SQL をサポートしていませんか?
今日は、ループ内で挿入ステートメントを使用して、関数を定義しました。しかし、HAWQ はエラーを返しました。
いくつかのテストを行ったところ、ループで「挿入ステートメント」を使用すると、間違いとして報告されることがわかりました。関連する「挿入ステートメント」を削除すると、正常に実行できます。
テストの例を次に示します。
次に、「select test_function();」を使用します 関数を呼び出すと、上記のエラーが返されます。
これは、plpgsql を使用したループで SQL ステートメントを使用できないということですか?
ありがとう。よろしくお願いします。