gluecontext 動的フレームを使用して dynamoDB からデータを読み取ることができることはわかっていますが、これを使用すると読み取りに時間がかかります。S3 から同じデータを読み取るサンプル例を以下に示します。
USING SPARK DATAFRAME FRAME
spark.read.format("CSV").option("header":"true").load("S3///")
reads data in 0 to 30 seconds
一方
USING GLUE DYNAMIC
glueContext.create_dynamic_frame.from_catalog()
OR
glueContext.create_dyanmic_frame.from_options()
reads data in 5 to 10 minutes
PYSPARK DATAFRAME を使用して DYNAMOBD からデータを読み取る方法はありますか?
********いくつかの調査の後************
https://github.com/audienceproject/spark-dynamodb
上記のコネクタを使用し、ローカル マシンからデータを読み取って表示できます。
aws グルーは spark 2.4 を使用しているため、spark-dynamidb_2.11-1.0.3.jar をダウンロードして s3 にアップロードし、python ライブラリ パスに s3 URI を記載しました。
ジョブの実行中に o.88.showString.com.audienceproject.spark.dynamodb.datasource.ScanPartition がスローされます
AWS GLUE でこのパッケージを使用する方法はありますか?