問題タブ [apache-beam-io]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-dataflow - Apache Beam を使用してデータベースから大量のデータを読み取る
クエリが何百万行も返す場合、JdbcIO がクエリを並列に実行する方法を知りたいです。https://issues.apache.org/jira/browse/BEAM-2803および関連するプル リクエストを参照しました。私はそれを完全に理解できませんでした。
ReadAll
expand
メソッドは を使用しParDo
ます。したがって、データを並行して読み取るために、データベースへの複数の接続を作成しますか? データソース内の DB に作成できる接続の数を制限すると、接続制限に固執しますか?
でこれがどのように処理されるかを理解するのを手伝ってもらえますJdbcIO
か? 私は使っている2.2.0
アップデート :
上記のコードは、ReadFn が ParDo に適用されることを示しています。ReadFn は並行して実行されると思います。私の仮定が正しければ、readAll()
一度に限られた数の接続しか確立できない DB から読み取るメソッドをどのように使用すればよいでしょうか?
ありがとうバル
python - Google App Engine Flex で Apache Beam を実行している場合、「モジュール」オブジェクトには属性「WriteToBigQuery」がありません
Cloud DataFlow パイプラインをトリガーする Google App Engine があります。このパイプラインは、最終的な PCollection を Google BigQuery に書き込むことになっていますが、適切な apache_beam.io 依存関係をインストールする方法が見つかりません。
Apache Beam バージョン 2.2.0 をローカルで実行しています。
プロジェクト構造は、このブログ投稿のコードに従います。
これは関連するコードです:
このコードをローカルで実行すると、beam.io.WriteToBigQuery()
が正しく呼び出されます。apache_beam/io/gcp/bigquery.py
仮想環境から取得されます。
lib
しかし、展開時にアプリに同梱されているフォルダーにこの依存関係をインストールできません。
要件として含まれている要件ファイルがありますが、apache-beam[gcp]==2.2.0
実行すると、フォルダーにダウンロードされた に class が含まれず、Google App Engine でアプリを実行するとエラーが発生します。pip install -r requirements.txt -t lib
apache_beam/io/gcp/bigquery.py
lib
WriteToBigQuery
'module' object has no attribute 'WriteToBigQuery'
どうすれば権利を得ることができるかについて誰かが考えを持っていますbigquery.py
か?