問題タブ [minio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark を使用して minio バケット内の複数のファイルを読み取る
Spark で複数のファイルを読み込もうとしています ファイルは avro ファイルであり、datalake という名前の Minio バケットに保存されています
私が使用している:HadoopなしでコンパイルされたSpark 2.2.1
Minio (最新の minio/minio docker)
2 つのパッケージ: com.databricks:spark-avro_2.11:4.0.0 および org.apache.hadoop:hadoop-aws:2.8.3
私は現在 pyspark でテストしています:
Minio との接続の初期化:
ファイルがバケット ルートに直接保存されている場合、次のようなワイルドカードを使用できます。
結果はOKです:
ただし、ファイルがサブフォルダーに保存されている場合:
エラーが発生します:
理由がわかりません。サブフォルダーは、kafka コネクターによって作成されます。
ワイルドカードを使用しない場合、次のように、これらのサブフォルダーに保存されているファイルにアクセスできることに注意してください。
set へのポリシーまたはアクセスはありますか? spark.read 命令は s3://datalake/random をファイルのように読み取るようですが、参照するフォルダーです
何か案が ?
とにかくありがとう