google-bigquery - Google クラウドストレージから Big Query への読み込みが遅いようです

Question

Big Query を使用してテストを実行しています。基本的に、私は 50,000 個のファイルを持っており、それぞれのサイズは平均で 27 MB です。大きいものもあれば、小さいものもあります。

各ファイルのアップロードのタイミングにより、次のことが明らかになります。

実 0m49.868s ユーザー 0m0.297s システム 0m0.173s

次のようなものを使用します。

時間 bq ロード --encoding="UTF-8" --field_delimiter="~" データセット gs://project/b_20130630_0003_1/20130630_0003_4565900000.tsv schema.json

コマンド「bq ls -j」を実行し、続いて「bq show -j」を実行すると、次のエラーがあることがわかります。

ジョブの種類状態開始時間期間処理されたバイト数

負荷障害 01 7 月 22:21:18 0:00:00

ジョブの実行中に発生したエラー。クォータの超過: このテーブルのテーブルあたりのインポートが多すぎます

データベースをチェックした後、行は正常にロードされたように見えますが、これは不可解です。なぜなら、エラーが発生したため、何も期待していなかったからです。問題は、最近ファイルのアップロードを開始したばかりで、制限が 200,000 リクエストだと思っていたので、どのようにしてクォータ制限に達したのかよくわからないことです。

現在、すべてのデータは Google Cloud Storage にあるため、データの読み込みはかなり迅速に行われると予想されます。これは、どちらもクラウドにあるクラウドストレージと Big Query の間でやり取りが行われるためです。

私の計算では、負荷全体に (50,000 * 49 秒) 28 日かかります。

これらの数字が間違っていることを願っています。

ありがとう。

google-bigquery - Google クラウド ストレージから Big Query への読み込みが遅いようです

1 に答える 1

Related

Reference

google-bigquery - Google クラウドストレージから Big Query への読み込みが遅いようです