アプリエンジンからGoogleBigQueryを使用しています。BigQueryへのエクスポートを行うために15分ごとに実行されるcronジョブがあります。ただし、ランダムに、インポートは2回実行されます。ただし、appengineログはこれを反映していません。bigqueryにデータを書き込むために維持しているBLOBのセットがあり、重複データが書き込まれていません。他の誰かが重複インポートでbigqueryの問題を抱えていましたか?繰り返しになりますが、私のappengineログには、インポートが1回だけ行われていることが示されているため、トラブルシューティングの方法がわかりません。
2 に答える
トラブルシューティングの1つの方法は、インポートジョブを確認することです。これを行うには、bqツールを実行して、実行bq ls -j
したジョブを一覧表示し、bq show -j <job_id>
特定のジョブの詳細を表示します。
重複したロードの他のケースについては聞いたことがありません。これを防ぐための1つのアイデアは、インポートジョブにIDを与えることです...デフォルトでは、IDが作成されます(job_のようになります)。ジョブIDはプロジェクト内で一意になるように強制されるため、インポートするごとにIDを生成する場合、二重インポートがトリガーされると、ジョブIDが既に存在するため、2番目のIDはすぐに失敗します。
ログに1回だけ送信されたことが示されているにもかかわらず、ジョブが2回インポートされたように見えるという同じ問題に直面しています。
また、ジョブを調べたところ、上記のコマンドは、ジョブが1回だけ正常に処理されたことを示しています。
ジョブは1回しか送信されないため、この場合、job_idの制御がどのように役立つかわからないことに注意してください。ジョブが重複する原因となった可能性があるのはBigQueryの内部的なもののようです。
調査するために私の終わりから何かが必要な場合は私に知らせてください。
ありがとう、