1)Greenplumはバニラポストグレスではありませんが、似ています。いくつかの新しい構文がありますが、一般的に、非常に一貫性があります。
2)Greenplum自体は、ファイルを取り込むために指定したポートでリッスンできる「gpfdist」と呼ばれるものを提供します(ただし、ファイルは分割する必要があります)。読み取り可能な外部テーブルが必要です。彼らはかなり速いです。構文は次のようになります。
CREATE READABLE EXTERNAL TABLE schema.ext_table
( thing int, thing2 int )
LOCATION (
'gpfdist://server:port1/path/to/filep1.txt',
'gpfdist://server:port2/path/to/filep2.txt',
'gpfdist://server:port3/path/to/filep3.txt'
) FORMAT 'text' (delimiter E'\t' null 'null' escape 'off') ENCODING 'UTF8';
CREATE TEMP TABLE import AS SELECT * FROM schema.ext_table DISTRIBUTED RANDOMLY;
彼らのルールに従ってプレイし、データがクリーンな場合、読み込みは非常に高速になる可能性があります。
3)これを行うのにPythonは必要ありませんが、Pythonを使用してgpfdistプロセスを開始し、外部テーブルを作成してデータをロードするコマンドをpsqlに送信することで自動化できます。ただし、何をしたいかによって異なります。