google-bigquery - JSON ファイルの一部を読み込んだ後、bigquery アップロードジョブが失敗するとどうなりますか?

翻译自：https://stackoverflow.com/questions/18599595 2013-09-03T19:01:11.400

503 次

0

タイトルにあるように、bigquery アップロードジョブを開始するとどうなりますか。たとえば、JSON ファイルの行の 50% を読み込んだ後、ジョブが失敗しました。bigquery は読み込みジョブのすべてをロールバックしますか、それとも読み込まれたデータの 50% が残っていますか?

私は毎日データを 1 つのテーブルに追加していますが、重複を避けることは非常に重要です。HTTP Rest API を使用しています

1 に答える 1

3

BigQuery はデータをアトミックに追加します。ロードが失敗した場合、テーブル内のデータの半分を取得することはできません。ジョブが正常に完了すると、すべてのデータが一度に表示されます。

重複を防ぐために使用できる追加のトリックが 2 つあります。

読み込みジョブのジョブ ID を指定します。作業の途中でネットワークケーブルを抜いたと想像してください。それが成功したかどうかはどうやってわかりますか? ジョブ ID を指定すると、ジョブ作成リクエストが失敗した場合に後でジョブを検索できます。
一時テーブルへのロードを実行し、writeDisposition として WRITE_TRUNCATE を指定します。これは、インポートジョブを一時テーブルに対して冪等に実行できることを意味します。ジョブが成功したかどうかわからない場合は、別のジョブを実行するだけで、データが上書きされます。ロードジョブが正常に完了したら、writeDisposition を WRITE_APPEND にしてテーブルコピージョブを実行し、新しいデータをメインテーブルに追加します。

于 2013-09-03T22:20:52.900 に答える