問題タブ [aws-glue-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
184 参照

pyspark - AWS Glue の pySpark で KMS を使用してレコードを復号化する

特定のテキスト コンテンツに対してクライアント側の暗号化を実行し、s3 の個々のファイルに保存します。これらのファイルを読み取り、AWS Glue でコンテンツを処理しようとしています。コンテンツを読み取ることはできますが、復号化中にピッキング エラーが発生します。

これは私たちが得るエラーです:

これを達成する方法はありますか?

0 投票する
1 に答える
392 参照

apache-spark - AWS Glue - json ファイルでさまざまなスキーマを持つ DynamicFrame

サンプル: Glue カタログに以下の DDL を含むパーティション テーブルがあります。

S3 の基礎となるデータは、さまざまなスキーマを持つ json ファイルです。これは、一部の要素が一部のファイルに存在せず、他のファイルに存在する可能性があることを意味します。

このサンプルの partition_0='01' には、すべての要素を含む json ファイルが含まれています。

partition_0='02' のファイルには要素データが含まれていません。b:

問題: Glue (私は Python を使用) で DynamicFrame を作成すると、そのスキーマはクエリするデータに依存します。partition_0='01' からのデータを含めると、すべての要素がスキーマに存在します。

partition_0='02' からのデータのみをクエリすると、要素 data.b は、テーブル定義に存在するにもかかわらず、DynamicFrame スキーマに存在しません。

質問: Glue テーブルのスキーマのすべての要素を常に含む DynamicFrame または DataFrame を作成するにはどうすればよいですか?

前もって感謝します!

0 投票する
2 に答える
43 参照

apache-spark - PySpark で配列を一致させる

AWS Glue ジョブの一部として PySpark を使用して 2 つのデータフレームを操作しようとしています。

df1:

df2:

次の方法で、df2 の配列を df1 のタグと一致させたいと思います。

したがって、df1 のタグは、df2 のタグ エントリに基づいて行を展開するために使用されます。たとえば、アイテム 1 のタグ「AB」は、最初の 2 行の df2 のタグ配列に含まれています。

また、タグ QQ が df2 のどの配列にも存在しないため、4 がどのように無視されるかに注意してください。

これが内部結合になることはわかっていますが、df1.tag と df2.tags を一致させて key1 と key2 を取り込む方法がわかりません。どんな援助でも大歓迎です。