amazon-web-services - AWS DynamoDB pyspark AWS グルーからデータを読み取る (動的フレームを使用しない)

翻译自：https://stackoverflow.com/questions/67090666 2021-04-14T11:16:16.970

393 次

gluecontext 動的フレームを使用して dynamoDB からデータを読み取ることができることはわかっていますが、これを使用すると読み取りに時間がかかります。S3 から同じデータを読み取るサンプル例を以下に示します。

USING SPARK DATAFRAME FRAME
spark.read.format("CSV").option("header":"true").load("S3///")
reads data in 0 to 30 seconds

一方

USING GLUE DYNAMIC
glueContext.create_dynamic_frame.from_catalog()
OR
glueContext.create_dyanmic_frame.from_options()
reads data in 5 to 10 minutes

PYSPARK DATAFRAME を使用して DYNAMOBD からデータを読み取る方法はありますか?

********いくつかの調査の後************

https://github.com/audienceproject/spark-dynamodb

上記のコネクタを使用し、ローカルマシンからデータを読み取って表示できます。

aws グルーは spark 2.4 を使用しているため、spark-dynamidb_2.11-1.0.3.jar をダウンロードして s3 にアップロードし、python ライブラリパスに s3 URI を記載しました。

ジョブの実行中に o.88.showString.com.audienceproject.spark.dynamodb.datasource.ScanPartition がスローされます

AWS GLUE でこのパッケージを使用する方法はありますか?

0 に答える 0