この投稿に対する Michael の回答を読んでいました。ここでは、パイプラインを使用してデータストアからクラウド ストレージ、ビッグ クエリにデータを移動することを提案しています。
Google App Engine: データストアで Big Query を使用していますか?
この手法を使用して、bigquery テーブルにデータを追加したいと考えています。つまり、mapreduce の実行中にエンティティが繰り返し bigquery に送信されないように、エンティティが処理されたかどうかを知る方法が必要です。毎回テーブルを再構築したくありません。
私の見方では、2 つの選択肢があります。エンティティにフラグを立てて、各エンティティが処理されたときにそれを更新し、その後の実行でそれを除外することができます。または、各エンティティを新しいテーブルに保存してソース テーブルから削除することもできます。2 番目の方法の方が優れているように見えますが、オプションを尋ねたり、落とし穴がないか確認したかったのです。