問題タブ [aws-glue-spark]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

236 問題

0 投票する

2 に答える

184 参照

pyspark - AWS Glue の pySpark で KMS を使用してレコードを復号化する

特定のテキストコンテンツに対してクライアント側の暗号化を実行し、s3 の個々のファイルに保存します。これらのファイルを読み取り、AWS Glue でコンテンツを処理しようとしています。コンテンツを読み取ることはできますが、復号化中にピッキングエラーが発生します。

これは私たちが得るエラーです:

これを達成する方法はありますか？

2021-03-01T09:01:29.243

0 投票する

1 に答える

392 参照

apache-spark - AWS Glue - json ファイルでさまざまなスキーマを持つ DynamicFrame

サンプル: Glue カタログに以下の DDL を含むパーティションテーブルがあります。

S3 の基礎となるデータは、さまざまなスキーマを持つ json ファイルです。これは、一部の要素が一部のファイルに存在せず、他のファイルに存在する可能性があることを意味します。

このサンプルの partition_0='01' には、すべての要素を含む json ファイルが含まれています。

partition_0='02' のファイルには要素データが含まれていません。b:

問題: Glue (私は Python を使用) で DynamicFrame を作成すると、そのスキーマはクエリするデータに依存します。partition_0='01' からのデータを含めると、すべての要素がスキーマに存在します。

partition_0='02' からのデータのみをクエリすると、要素 data.b は、テーブル定義に存在するにもかかわらず、DynamicFrame スキーマに存在しません。

質問: Glue テーブルのスキーマのすべての要素を常に含む DynamicFrame または DataFrame を作成するにはどうすればよいですか?

前もって感謝します！

apache-spark pyspark aws-glue aws-glue-spark

2021-03-02T21:45:32.200

0 投票する

2 に答える

43 参照

apache-spark - PySpark で配列を一致させる

AWS Glue ジョブの一部として PySpark を使用して 2 つのデータフレームを操作しようとしています。

df1:

df2:

次の方法で、df2 の配列を df1 のタグと一致させたいと思います。

したがって、df1 のタグは、df2 のタグエントリに基づいて行を展開するために使用されます。たとえば、アイテム 1 のタグ「AB」は、最初の 2 行の df2 のタグ配列に含まれています。

また、タグ QQ が df2 のどの配列にも存在しないため、4 がどのように無視されるかに注意してください。

これが内部結合になることはわかっていますが、df1.tag と df2.tags を一致させて key1 と key2 を取り込む方法がわかりません。どんな援助でも大歓迎です。

apache-spark pyspark apache-spark-sql aws-glue aws-glue-spark

2021-03-19T07:56:09.223

1 2 3 4 5 6 7 8 9 10

問題タブ [aws-glue-spark]

pyspark - AWS Glue の pySpark で KMS を使用してレコードを復号化する

apache-spark - AWS Glue - json ファイルでさまざまなスキーマを持つ DynamicFrame

apache-spark - PySpark で配列を一致させる

Reference