1

私は Google BigQuery を使用していますが、公開されているサンプル テーブルはほとんどありません。それらの 1 つはウィキペディアの改訂履歴 [publicdata:samples.wikipedia] です。

いくつかのテスト目的で、エクスポートして Google Cloud Storage に保存したいと思います。

しかし、Google BigQuery でエクスポート ジョブを実行すると、5 時間実行され、ジョブは失敗します :(

返された唯一のメッセージは Errors: Backend error でした。ジョブが中止されました。

データサイズが35GB前後だからかもしれません。提供された他のすべてのサンプルは 25 GB 未満で、Google Cloud Storage に正常にエクスポートされました。

問題の内容とそれを回避する方法を知っている人はいますか?

4

1 に答える 1

1

エクスポート ジョブにはタイムアウトがあり、2 時間後に強制終了されるようです (その後、2 回再試行されます)。現在、エクスポートは順次処理されているため (つまり、一度に 1 行のデータを読み取って変換し、1 つのファイルに書き出す)、結果が大きい場合、処理に時間がかかることがあります。

宛先パスとしてファイル グロブ パターン(例: gs://foo/bar*)を指定すると、BigQuery はエクスポートを分割して並行して実行できるため、抽出にかかる時間が短縮されます。

最近の変更により、エクスポート プロセスも高速化されます。

于 2012-07-09T18:28:25.310 に答える