0

最近、cloud dataflow python sdk が利用可能になり、それを使用することにしました。残念ながら、クラウド データストアからの読み取りのサポートはまだ提供されていないため、カスタム ソースの記述に頼る必要があります。これにより、約束どおりに動的分割、進行状況の見積もりなどの利点を利用できるようになります。ドキュメントを徹底的に調べましたが、プロセス全体をスピードアップできるように断片をまとめることができません。

より明確にするために、私の最初のアプローチは次のとおりです。

  1. クラウド データストアのクエリ
  2. ParDo 関数を作成し、返されたクエリをそれに渡します。

しかし、これでは 20 万件以上のエントリを繰り返すのに 13 分かかりました。

そこで、エンティティを効率的に読み取るカスタム ソースを作成することにしました。しかし、ピースをまとめるという私の理解が不足しているため、それを達成することはできません. データストアから読み取るためのカスタム ソースを作成する方法を教えてください。

編集: 最初のアプローチの場合、私の要点へのリンクは次のとおりです

ありがとうございました。

4

1 に答える 1