問題タブ [amazon-redshift-spectrum]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - Parquet ファイルを Redshift に読み込む
S3 に多数の Parquet ファイルがあり、最適な方法でそれらを redshift にロードしたいと考えています。
各ファイルは複数のチャンクに分割されます...S3 から Redshift にデータをロードする最適な方法は何ですか?
また、Redshift でターゲット テーブル定義をどのように作成しますか? Parquet からスキーマを推測し、プログラムでテーブルを作成する方法はありますか? Redshiftスペクトルを使用してこれを行う方法があると思いますが、スクリプトでこれを行うことができるかどうか知りたい.
あなたの助けに感謝!
Glue、Lambda などのすべての AWS ツールを使用して、(パフォーマンス、セキュリティ、コストの点で) これを最も最適な方法で行うことを検討しています。
python - 文字列データ型の null 値を示す寄木細工のファイルからの Redshift 外部テーブル
S3 に保存されている Parquet ファイルを参照して、Redshift で外部テーブルを作成しています。parquet ファイルは pyarrow で作成されます。SELECT * すると、「タイムスタンプ」の下に定義された外部テーブルが機能しますが、「anonymous_id」(VARCHAR) は null です。同じことが VARCHAR にも当てはまります。
寄木細工のスキーマは次のとおりです。
なぜそれが起こるのですか?STL_S3CLIENT_ERROR 言います:
ご助力ありがとうございます!
amazon-web-services - 「列のタイプの解析エラー」Redshift Spectrum
s3 から大量の json ファイルを使用するスペクトルのユースケースがあります。まず、Glue クローラーを使用してデータをクロールし、データ カタログを作成しました。次に、そのカタログを使用して、Glue データベースを参照する外部スキーマを作成し、カタログにアクセスできるようにしました。これで、ルート レベルの文字列に対して select ステートメントを実行できるようになりました。
問題は、構造体オブジェクトに対して select ステートメントを実行すると、「列 't.actor.name' のタイプの解析中にエラーが発生しました」というエラーが発生することです。select の例を次に示します (id はアクター構造体内の文字列です)。
私は何が欠けていますか?また、json を寄木細工に変換しようとしましたが、ネストされたデータをクエリしようとして同じ問題が発生しています。
グルーテーブルの定義は次のとおりです。
アクターの構造体は次のとおりです。
sql - 文字列から直接 Amazon Spectrum 増分ロード
スペクトルから「ファイル名Pro_180913_171842」としてフィールドを取得しました。次のようにSQLで関数を試しました
しかし、空の行のみが返されました!