google-bigquery - Big Query ジョブが「不正な文字 (ASCII 0) が検出されました」で失敗する。

Question

エラーで失敗するジョブがあります

行:14222274 / フィールド:1、不正な文字 (ASCII 0) が検出されました。ファイルの残りは処理されません。

データは圧縮されており、ファイルに ASCII 0 文字が存在しないことを確認しました。ファイルには 14222273 行しかないため、エラーメッセージに出力される行番号は、ファイルの末尾の 1 行後です。正常にアップロードされた同じデータセットからの他のチャンクがあるため、これは BQ のバグであるか、エラーメッセージが根本的な問題を示していない可能性があります。この問題を解決する助けをいただければ幸いです。ありがとう。

>>> data = open("data.csv").read()
>>> chr(0) in data
False
>>> data[-1]
'\n'

score 1 · Accepted Answer

圧縮するとき、どのユーティリティを使用しましたか?

csv ファイルを ZIP 形式 (Windows) で圧縮したときに、この問題が発生しました。Google BigQuery は gzip 形式しか受け付けないようです。

gzip を使用して CSV を圧縮してください。Windows 7を使用している場合、-zip は gzip で圧縮できる優れたユーティリティです。

Unix では gzip が標準です。

score 0 · Accepted Answer

不正な文字 (ASCII 0) が検出されました。ファイルの残りは処理されません。

デコードできないUTF-16文字があることを明確に示しています。BigQuery サービスは、UTF-8 と latin1 のテキストエンコーディングのみをサポートしています。したがって、ファイルは UTF-8 でエンコードされているはずです。

ファイルには 14222273 行しかないため、エラーメッセージに出力される行番号は、ファイルの末尾の 1 行後です。

おそらく、ファイルの末尾に UTF-16 でエンコードされたタブ文字があり、デコードできません。

解決策:コマンドで-aor--asciiフラグを使用しgzipます。によって正常にデコードされますbigquery。

google-bigquery - Big Query ジョブが「不正な文字 (ASCII 0) が検出されました」で失敗する。

3 に答える 3

Related

Reference