問題タブ [hawq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2791 参照

scala - Greenplum、Pivo​​tal HD + Spark、または TB の構造化データ向けの HAWQ?

Greenplum DB に TB の構造化データがあります。データに対して基本的に MapReduce ジョブを実行する必要があります。

このデータが (ストリーミング方式で) メモリに収まるように、少なくとも MapReduce の機能を再実装していることに気付きました。

それから、より完全な解決策を求めて他の場所を探すことにしました。

私は Scala を使用しており、Spark のベンチマークは驚異的であるため、Pivo​​tal HD + Spark を検討しました。しかし、この背後にあるデータストアである HDFS は、Greenplum よりも効率が悪いと思います。(「私は信じる」に注意してください。私が間違っていることを知ってうれしいですが、いくつかの証拠を教えてください。)

そこで、Greenplum ストレージ レイヤーを維持するために、Pivo​​tal の HAWQ を調べました。これは基本的に、Greenplum 上の SQL を使用した Hadoop です。

このアプローチでは多くの機能が失われます。主にSparkの使用。

それとも、組み込みの Greenplum 機能を使用する方がよいのでしょうか?

そのため、どの方法が最善なのかわからないという岐路に立っています。リレーショナル DB モデルに適した TB 規模のデータを処理したいと考えており、Spark と MapReduce の利点を活用したいと考えています。

求めすぎですか?

0 投票する
1 に答える
1441 参照

apache-spark-sql - JDBC ドライバーを介して Spark を HAWQ に接続する

greenplum の odbc/jdbc ドライバー (適切な Pivotal ページからダウンロード) を使用して、Spark から HAWQ に接続しようとしています。

Spark 1.4 を使用して、Python で記述されたサンプル コードを次に示します (すべての大文字には適切な変数の割り当てがあります) ...

...

Spark submit コマンドは、odbc ドライバーをクラスパスに追加します。基本的な sqlContext のインスタンス化で「hello world」を実行しましたが、クラスター上ですべてが正常に動作しています。しかし、HAWQ postgresql db に実際に接続しようとすると、実行されません。

エラー:

何か考えや提案はありますか?「df = sqlContext.read.load...」定義の少なくとも 20 の組み合わせを試しましたが、役に立ちませんでした。

0 投票する
1 に答える
794 参照

postgresql - Spark から JDBC 経由でテーブル データを抽出するときの PostgreSQL エラー

Spark から HAWQ JDBC への接続が機能していましたが、2 日後にテーブルからデータを抽出する際に問題が発生しました。Spark の構成は何も変更されていません...

簡単なステップ #1 - HAWQ の単純なテーブルからスキーマを出力する SQLContext DataFrame を作成し、HAWQ データベースに接続できます。

どちらが印刷されますか:

しかし、実際にデータを抽出しようとすると:

これらのエラーがポップアップします...

私が試したこと(ただし、より正確な手順がある場合は、もう一度試してください):

  • HAWQ マスター ノードで「df -i」を試しましたが、使用率は 1% しかありません
  • HAWQ データベースで dbvacuum を試しました (HAWQ では VACUUM ALL は推奨されません)。
  • この小さな新しいデータベース(単一のテーブル、3列)を作成しようとしましたが、うまくいきませんでした

これは実際のメモリ不足ではあり得ないので、どこで何がつまずいているのでしょうか??

0 投票する
0 に答える
529 参照

apache-spark - 125 Gb のデータを抽出するためのスパーク メモリ割り当てを設定しています...ExecutorLostFailure

126 Gb テーブルを HAWQ (PostgreSQL、この場合は 8.2) から Spark にプルしようとしていますが、機能していません。小さいテーブルを問題なくプルできます。これについては、エラーが発生し続けます:

私のクラスターの仕様は次のとおりです: 64 コア、512 Gb の RAM、2 ノード
これは 2 ノードの Spark スタンドアロン クラスターです (信頼してください。もっと多くのノードが必要ですが、それがすべてです)。したがって、1 つのノードを純粋なスレーブとして使用し、もう 1 つのノードにはマスターと他のスレーブの両方を収容します。

spark-submit ジョブでメモリ割り当ての多くの構成を試しました。ここにいくつかをリストしますが、どれも機能しませんでした:

エラーは毎回同じです -- ExecutorLostFailure (executor driver lost)

0 投票する
1 に答える
1650 参照

sql-server - postgresql と同等の SQL Server 日時変換関数 (pivotal hawq)

SQL Server 2012 には以下の SQL スクリプトがあります。データベース変換時に、postgresql (HAWQ 1.3.1) で同様のスクリプトを作成しようとしています。

次のスクリプトを試して書きました。

上記のスクリプトは postgresql にコンパイルされています ( VERSION HAWQ 1.3.1)

また、試してみました:

  • ms sql サーバーの convert 関数を postgres に変換して orderdate 列を比較しようとすると、OrderDate の比較は 'MM-01-YYYY' (望ましい結果) として反映される必要がありますが、これは実際には '00-01-0000' ではありません。 「11-01-2015」としての結果

**

  • 望ましい結果を得るためのpostgresqlのconvert()関数式はどうなりますか?

**

0 投票する
2 に答える
313 参照

postgresql - Hawq が : 列 "SoldToAddr2" のデータが欠落している場合のエラーを解決するにはどうすればよいですか?

重要な Hadoop-hawq システムの小さなクラスターがあります。1 つの外部テーブルを読み取る必要があります。

つまり、ext_table から * を選択します

しかし、次のエラーについてHawqの苦情でクエリを発行したとき:

以下を試しました:

ext_table 定義の format 句で異なる特殊文字を試しました。

エラーの詳細:

つまり、行 20 で検出された不良行

重要な hadoop-hawq システムの悪いエラーを解決するためのより良い方法は何ですか?

どんな助けでも大歓迎ですか?

0 投票する
2 に答える
105 参照

sql - HAWQ はサイクル (while または for, use plpgsql) で SQL をサポートしていませんか?

今日は、ループ内で挿入ステートメントを使用して、関数を定義しました。しかし、HAWQ はエラーを返しました。

いくつかのテストを行ったところ、ループで「挿入ステートメント」を使用すると、間違いとして報告されることがわかりました。関連する「挿入ステートメント」を削除すると、正常に実行できます。

テストの例を次に示します。

次に、「select test_function();」を使用します 関数を呼び出すと、上記のエラーが返されます。

これは、plpgsql を使用したループで SQL ステートメントを使用できないということですか?

ありがとう。よろしくお願いします。