問題タブ [spark-csv]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
csv - Spark CSV が破損した GZip ファイルを処理する
私はsparks csv読み取りユーティリティを使用してCSVファイルをデータフレームに読み込むspark 2.0 Javaアプリケーションを持っています。問題は、100 個の入力ファイルのうち 1 個が無効 (破損した gzip ) である場合があり、ジョブが次のエラーで失敗する場合があることです。
ファイルをテキスト ファイルとして読み取り、CSV を手動で解析していたとき、カスタムの TextInputFormat を記述して例外を処理することができました。spark の CSV リーダーを使用するときに、顧客の TextInputFormat を指定する方法がわかりません。どんな助けでも大歓迎です。
CSV を読み取るための現在のコード:
ありがとう、ネイサン