Big Query を使用してテストを実行しています。基本的に、私は 50,000 個のファイルを持っており、それぞれのサイズは平均で 27 MB です。大きいものもあれば、小さいものもあります。
各ファイルのアップロードのタイミングにより、次のことが明らかになります。
実 0m49.868s ユーザー 0m0.297s システム 0m0.173s
次のようなものを使用します。
時間 bq ロード --encoding="UTF-8" --field_delimiter="~" データセット gs://project/b_20130630_0003_1/20130630_0003_4565900000.tsv schema.json
コマンド「bq ls -j」を実行し、続いて「bq show -j」を実行すると、次のエラーがあることがわかります。
ジョブの種類 状態 開始時間 期間 処理されたバイト数
負荷障害 01 7 月 22:21:18 0:00:00
ジョブの実行中に発生したエラー。クォータの超過: このテーブルのテーブルあたりのインポートが多すぎます
データベースをチェックした後、行は正常にロードされたように見えますが、これは不可解です。なぜなら、エラーが発生したため、何も期待していなかったからです。問題は、最近ファイルのアップロードを開始したばかりで、制限が 200,000 リクエストだと思っていたので、どのようにしてクォータ制限に達したのかよくわからないことです。
現在、すべてのデータは Google Cloud Storage にあるため、データの読み込みはかなり迅速に行われると予想されます。これは、どちらもクラウドにあるクラウド ストレージと Big Query の間でやり取りが行われるためです。
私の計算では、負荷全体に (50,000 * 49 秒) 28 日かかります。
これらの数字が間違っていることを願っています。
ありがとう。