問題タブ [aws-glue-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - AWS DynamoDB pyspark AWS グルーからデータを読み取る (動的フレームを使用しない)
gluecontext 動的フレームを使用して dynamoDB からデータを読み取ることができることはわかっていますが、これを使用すると読み取りに時間がかかります。S3 から同じデータを読み取るサンプル例を以下に示します。
一方
PYSPARK DATAFRAME を使用して DYNAMOBD からデータを読み取る方法はありますか?
********いくつかの調査の後************
https://github.com/audienceproject/spark-dynamodb
上記のコネクタを使用し、ローカル マシンからデータを読み取って表示できます。
aws グルーは spark 2.4 を使用しているため、spark-dynamidb_2.11-1.0.3.jar をダウンロードして s3 にアップロードし、python ライブラリ パスに s3 URI を記載しました。
ジョブの実行中に o.88.showString.com.audienceproject.spark.dynamodb.datasource.ScanPartition がスローされます
AWS GLUE でこのパッケージを使用する方法はありますか?