csv - Spark CSV が破損した GZip ファイルを処理する

翻译自：https://stackoverflow.com/questions/42773400 2017-03-13T21:04:47.737

267 次

私はsparks csv読み取りユーティリティを使用してCSVファイルをデータフレームに読み込むspark 2.0 Javaアプリケーションを持っています。問題は、100 個の入力ファイルのうち 1 個が無効 (破損した gzip ) である場合があり、ジョブが次のエラーで失敗する場合があることです。

java.lang.IllegalStateException: Error reading from input

ファイルをテキストファイルとして読み取り、CSV を手動で解析していたとき、カスタムの TextInputFormat を記述して例外を処理することができました。spark の CSV リーダーを使用するときに、顧客の TextInputFormat を指定する方法がわかりません。どんな助けでも大歓迎です。

CSV を読み取るための現在のコード:

        Dataset<Row> csv = sparkSession.read()
            .option("delimiter", parseSettings.getDelimiter().toString())
            .option("quote", parseSettings.getQuote())
            .option("parserLib", "UNIVOCITY")
            .csv(paths);

ありがとう、ネイサン

csv - Spark CSV が破損した GZip ファイルを処理する

0 に答える 0

Related

Reference