私はsparks csv読み取りユーティリティを使用してCSVファイルをデータフレームに読み込むspark 2.0 Javaアプリケーションを持っています。問題は、100 個の入力ファイルのうち 1 個が無効 (破損した gzip ) である場合があり、ジョブが次のエラーで失敗する場合があることです。
java.lang.IllegalStateException: Error reading from input
ファイルをテキスト ファイルとして読み取り、CSV を手動で解析していたとき、カスタムの TextInputFormat を記述して例外を処理することができました。spark の CSV リーダーを使用するときに、顧客の TextInputFormat を指定する方法がわかりません。どんな助けでも大歓迎です。
CSV を読み取るための現在のコード:
Dataset<Row> csv = sparkSession.read()
.option("delimiter", parseSettings.getDelimiter().toString())
.option("quote", parseSettings.getQuote())
.option("parserLib", "UNIVOCITY")
.csv(paths);
ありがとう、ネイサン