問題タブ [aws-glue-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark - AWS Glue の pySpark で KMS を使用してレコードを復号化する
特定のテキスト コンテンツに対してクライアント側の暗号化を実行し、s3 の個々のファイルに保存します。これらのファイルを読み取り、AWS Glue でコンテンツを処理しようとしています。コンテンツを読み取ることはできますが、復号化中にピッキング エラーが発生します。
これは私たちが得るエラーです:
これを達成する方法はありますか?
apache-spark - AWS Glue - json ファイルでさまざまなスキーマを持つ DynamicFrame
サンプル: Glue カタログに以下の DDL を含むパーティション テーブルがあります。
S3 の基礎となるデータは、さまざまなスキーマを持つ json ファイルです。これは、一部の要素が一部のファイルに存在せず、他のファイルに存在する可能性があることを意味します。
このサンプルの partition_0='01' には、すべての要素を含む json ファイルが含まれています。
partition_0='02' のファイルには要素データが含まれていません。b:
問題: Glue (私は Python を使用) で DynamicFrame を作成すると、そのスキーマはクエリするデータに依存します。partition_0='01' からのデータを含めると、すべての要素がスキーマに存在します。
partition_0='02' からのデータのみをクエリすると、要素 data.b は、テーブル定義に存在するにもかかわらず、DynamicFrame スキーマに存在しません。
質問: Glue テーブルのスキーマのすべての要素を常に含む DynamicFrame または DataFrame を作成するにはどうすればよいですか?
前もって感謝します!
apache-spark - PySpark で配列を一致させる
AWS Glue ジョブの一部として PySpark を使用して 2 つのデータフレームを操作しようとしています。
df1:
df2:
次の方法で、df2 の配列を df1 のタグと一致させたいと思います。
したがって、df1 のタグは、df2 のタグ エントリに基づいて行を展開するために使用されます。たとえば、アイテム 1 のタグ「AB」は、最初の 2 行の df2 のタグ配列に含まれています。
また、タグ QQ が df2 のどの配列にも存在しないため、4 がどのように無視されるかに注意してください。
これが内部結合になることはわかっていますが、df1.tag と df2.tags を一致させて key1 と key2 を取り込む方法がわかりません。どんな援助でも大歓迎です。