1

私はsparks csv読み取りユーティリティを使用してCSVファイルをデータフレームに読み込むspark 2.0 Javaアプリケーションを持っています。問題は、100 個の入力ファイルのうち 1 個が無効 (破損した gzip ) である場合があり、ジョブが次のエラーで失敗する場合があることです。

java.lang.IllegalStateException: Error reading from input

ファイルをテキスト ファイルとして読み取り、CSV を手動で解析していたとき、カスタムの TextInputFormat を記述して例外を処理することができました。spark の CSV リーダーを使用するときに、顧客の TextInputFormat を指定する方法がわかりません。どんな助けでも大歓迎です。

CSV を読み取るための現在のコード:

        Dataset<Row> csv = sparkSession.read()
            .option("delimiter", parseSettings.getDelimiter().toString())
            .option("quote", parseSettings.getQuote())
            .option("parserLib", "UNIVOCITY")
            .csv(paths);

ありがとう、ネイサン

4

0 に答える 0