“hawq”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

2791 参照

scala - Greenplum、Pivotal HD + Spark、または TB の構造化データ向けの HAWQ?

Greenplum DB に TB の構造化データがあります。データに対して基本的に MapReduce ジョブを実行する必要があります。

このデータが (ストリーミング方式で) メモリに収まるように、少なくとも MapReduce の機能を再実装していることに気付きました。

それから、より完全な解決策を求めて他の場所を探すことにしました。

私は Scala を使用しており、Spark のベンチマークは驚異的であるため、Pivotal HD + Spark を検討しました。しかし、この背後にあるデータストアである HDFS は、Greenplum よりも効率が悪いと思います。（「私は信じる」に注意してください。私が間違っていることを知ってうれしいですが、いくつかの証拠を教えてください。）

そこで、Greenplum ストレージレイヤーを維持するために、Pivotal の HAWQ を調べました。これは基本的に、Greenplum 上の SQL を使用した Hadoop です。

このアプローチでは多くの機能が失われます。主にSparkの使用。

それとも、組み込みの Greenplum 機能を使用する方がよいのでしょうか?

そのため、どの方法が最善なのかわからないという岐路に立っています。リレーショナル DB モデルに適した TB 規模のデータを処理したいと考えており、Spark と MapReduce の利点を活用したいと考えています。

求めすぎですか？

2015-09-11T20:08:50.400

0 投票する

1 に答える

1441 参照

apache-spark-sql - JDBC ドライバーを介して Spark を HAWQ に接続する

greenplum の odbc/jdbc ドライバー (適切な Pivotal ページからダウンロード) を使用して、Spark から HAWQ に接続しようとしています。

Spark 1.4 を使用して、Python で記述されたサンプルコードを次に示します (すべての大文字には適切な変数の割り当てがあります) ...

...

Spark submit コマンドは、odbc ドライバーをクラスパスに追加します。基本的な sqlContext のインスタンス化で「hello world」を実行しましたが、クラスター上ですべてが正常に動作しています。しかし、HAWQ postgresql db に実際に接続しようとすると、実行されません。

エラー：

何か考えや提案はありますか？「df = sqlContext.read.load...」定義の少なくとも 20 の組み合わせを試しましたが、役に立ちませんでした。

apache-spark-sql pyspark-sql hawq

2015-09-16T22:39:29.873

0 投票する

1 に答える

794 参照

postgresql - Spark から JDBC 経由でテーブルデータを抽出するときの PostgreSQL エラー

Spark から HAWQ JDBC への接続が機能していましたが、2 日後にテーブルからデータを抽出する際に問題が発生しました。Spark の構成は何も変更されていません...

簡単なステップ #1 - HAWQ の単純なテーブルからスキーマを出力する SQLContext DataFrame を作成し、HAWQ データベースに接続できます。

どちらが印刷されますか:

しかし、実際にデータを抽出しようとすると:

これらのエラーがポップアップします...

私が試したこと（ただし、より正確な手順がある場合は、もう一度試してください）：

HAWQ マスターノードで「df -i」を試しましたが、使用率は 1% しかありません
HAWQ データベースで dbvacuum を試しました (HAWQ では VACUUM ALL は推奨されません)。
この小さな新しいデータベース（単一のテーブル、3列）を作成しようとしましたが、うまくいきませんでした

これは実際のメモリ不足ではあり得ないので、どこで何がつまずいているのでしょうか??

postgresql jdbc pyspark hawq

2015-09-24T23:09:21.377

0 投票する

0 に答える

529 参照

apache-spark - 125 Gb のデータを抽出するためのスパークメモリ割り当てを設定しています...ExecutorLostFailure

126 Gb テーブルを HAWQ (PostgreSQL、この場合は 8.2) から Spark にプルしようとしていますが、機能していません。小さいテーブルを問題なくプルできます。これについては、エラーが発生し続けます：

私のクラスターの仕様は次のとおりです: 64 コア、512 Gb の RAM、2 ノード
これは 2 ノードの Spark スタンドアロンクラスターです (信頼してください。もっと多くのノードが必要ですが、それがすべてです)。したがって、1 つのノードを純粋なスレーブとして使用し、もう 1 つのノードにはマスターと他のスレーブの両方を収容します。

spark-submit ジョブでメモリ割り当ての多くの構成を試しました。ここにいくつかをリストしますが、どれも機能しませんでした:

エラーは毎回同じです -- ExecutorLostFailure (executor driver lost)

apache-spark apache-spark-sql hawq

2015-10-08T00:03:32.163

0 投票する

1 に答える

1650 参照

sql-server - postgresql と同等の SQL Server 日時変換関数 (pivotal hawq)

SQL Server 2012 には以下の SQL スクリプトがあります。データベース変換時に、postgresql (HAWQ 1.3.1) で同様のスクリプトを作成しようとしています。

次のスクリプトを試して書きました。

上記のスクリプトは postgresql にコンパイルされています ( VERSION HAWQ 1.3.1)

また、試してみました：

ms sql サーバーの convert 関数を postgres に変換して orderdate 列を比較しようとすると、OrderDate の比較は 'MM-01-YYYY' (望ましい結果) として反映される必要がありますが、これは実際には '00-01-0000' ではありません。「11-01-2015」としての結果

**

望ましい結果を得るためのpostgresqlのconvert()関数式はどうなりますか?

**

sql-server postgresql datetime hawq

2015-11-14T10:56:52.707

0 投票する

2 に答える

313 参照

postgresql - Hawq が : 列 "SoldToAddr2" のデータが欠落している場合のエラーを解決するにはどうすればよいですか?

重要な Hadoop-hawq システムの小さなクラスターがあります。1 つの外部テーブルを読み取る必要があります。

つまり、ext_table から * を選択します

しかし、次のエラーについてHawqの苦情でクエリを発行したとき：

以下を試しました：

ext_table 定義の format 句で異なる特殊文字を試しました。

エラーの詳細:

つまり、行 20 で検出された不良行

重要な hadoop-hawq システムの悪いエラーを解決するためのより良い方法は何ですか?

どんな助けでも大歓迎ですか？

postgresql hadoop external-tables hawq

2015-12-03T11:59:50.407

0 投票する

2 に答える

105 参照

sql - HAWQ はサイクル (while または for, use plpgsql) で SQL をサポートしていませんか?

今日は、ループ内で挿入ステートメントを使用して、関数を定義しました。しかし、HAWQ はエラーを返しました。

いくつかのテストを行ったところ、ループで「挿入ステートメント」を使用すると、間違いとして報告されることがわかりました。関連する「挿入ステートメント」を削除すると、正常に実行できます。

テストの例を次に示します。

次に、「select test_function();」を使用します関数を呼び出すと、上記のエラーが返されます。

これは、plpgsql を使用したループで SQL ステートメントを使用できないということですか?

ありがとう。よろしくお願いします。

sql database loops hawq

2016-01-14T09:24:13.957

問題タブ [hawq]

Reference