問題タブ [aws-glue]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3209 参照

amazon-web-services - ファイル名に基づく AWS Glue カスタム クローラー

私がやろうとしているのは、AWS Glue を使用して S3 バケットのデータをクロールすることです。ネストされた json とパスとして保存されたデータは次のようになります。

デフォルトのクローラー(カスタム分類子なし)を実行すると、パスに基づいて分割され、期待どおりにjsonが逆シリアル化されますが、別のフィールドでファイル名からタイムスタンプも取得したいと思います。今のところ、クローラーはそれを省略しています。

たとえば、クローラーを実行すると:

次のようなテーブル スキーマを取得します。

  • パーティション 1: 10001
  • パーティション2:フロマージュ
  • 配列: JSON データ

Grok パターンに基づいてカスタム分類子を追加しようとしました。

ここに画像の説明を入力

ただし、クローラーを再実行するたびに、カスタム分類子がスキップされ、デフォルトの JSON 分類子が使用されます。明らかに解決策として、クローラーを実行する前に JSON 自体にファイル名を追加できますが、この手順を回避できるかどうか疑問に思っていましたか?

0 投票する
1 に答える
3590 参照

amazon-web-services - AWS Glue ジョブが s3 の大きな入力 csv データで失敗する

小さな s3 入力ファイル (~10GB) の場合、グルー ETL ジョブは正常に機能しますが、より大きなデータセット (~200GB) の場合、ジョブは失敗します。

ETLコードの一部を追加。

ジョブは 4 時間実行され、エラーがスローされました。

ファイル "script_2017-11-23-15-07-32.py"、49 行目、partitioned_dataframe.write.partitionBy(['part_date']).format("parquet").save(output_lg_partitioned_dir, mode="append" 内) ファイル "/mnt/yarn/usercache/root/appcache/application_1511449472652_0001/container_1511449472652_0001_02_000001/pyspark.zip/pyspark/sql/readwriter.py"、行 550、保存ファイル "/mnt/yarn/usercache/root/appcache/application_151206/application_1512144294" /container_1511449472652_0001_02_000001/py4j-0.10.4-src.zip/py4j/java_gateway.py"、1133 行目、呼び出し中デコ ファイル "/mnt/yarn/usercache/root/appcache/application_151144294026 container_1511449472652_0001_02_000001/py4j-0.10.4-src.zip/py4j/protocol.py"、319 行目、get_return_value py4j.protocol.Py4JJavaError: o172.save の呼び出し中にエラーが発生しました。: org.apache.spark.SparkException: ジョブが中止されました。org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply$mcV$sp(FileFormatWriter.scala:147) で org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun で$write$1.apply(FileFormatWriter.scala:121) at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:

LogType:stdout の終わり

この問題を解決するためのガイダンスを提供していただければ幸いです。