python - 最新の python apache_beam cloud datafow sdk を使用してクラウドデータストアから読み取るためのカスタムソースを作成する

翻译自：https://stackoverflow.com/questions/38698233 2016-08-01T11:54:52.607

548 次

最近、cloud dataflow python sdk が利用可能になり、それを使用することにしました。残念ながら、クラウドデータストアからの読み取りのサポートはまだ提供されていないため、カスタムソースの記述に頼る必要があります。これにより、約束どおりに動的分割、進行状況の見積もりなどの利点を利用できるようになります。ドキュメントを徹底的に調べましたが、プロセス全体をスピードアップできるように断片をまとめることができません。

より明確にするために、私の最初のアプローチは次のとおりです。

クラウドデータストアのクエリ
ParDo 関数を作成し、返されたクエリをそれに渡します。

しかし、これでは 20 万件以上のエントリを繰り返すのに 13 分かかりました。

そこで、エンティティを効率的に読み取るカスタムソースを作成することにしました。しかし、ピースをまとめるという私の理解が不足しているため、それを達成することはできません. データストアから読み取るためのカスタムソースを作成する方法を教えてください。

編集: 最初のアプローチの場合、私の要点へのリンクは次のとおりです。

ありがとうございました。

python - 最新の python apache_beam cloud datafow sdk を使用してクラウド データストアから読み取るためのカスタム ソースを作成する

1 に答える 1

Related

Reference

python - 最新の python apache_beam cloud datafow sdk を使用してクラウドデータストアから読み取るためのカスタムソースを作成する