問題タブ [apache-beam]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-bigquery - Python で Dataflow パイプラインを使用して、Google Datastore から BigQuery へのデータ転送
Google Cloud Datastore から Bigquery へのデータ転送に問題があります。このジョブのために Python でデータフロー スクリプトを作成する必要があります。このジョブは、Python でパイプラインを使用してデータストアから BigQuery にデータを転送する必要があります。Python でこのジョブを実行するには、「Apache Beam」ライブラリが必要ですが、Apache Beam ライブラリが機能していません。誰でも私たちを助けることができますか?
python - ImportError を発生させる Dataflow Python SDK は、パイプラインがビューで作成される
私は Python Dataflow wordcount_minimal.py の例を実行していますが、正常に動作しています。
とにかく、私は今、Flaskビュー内からパイプラインを作成しようとしていますが、奇妙な理由ですべて失敗し続けています:
ImportError: Cannot re-init internal module __main__
これはdill
パッケージによって発生します。具体的には次のとおりです。
https://github.com/uqfoundation/dill/blob/master/dill/dill.py#L67
新しい virtualenv の作成や、他の依存関係のない単純な Flask アプリの作成など、いくつかのテストを行いました。必要なパッケージはすべて次のとおりです。
問題は解決しません。また、Dataflow Python SDK と dill パッケージ リポジトリの両方で、github の問題リストには何も見つかりませんでした。
apache-beam - Apache ビームが jar ファイルとしてリリースされ、Eclipse でプロジェクトの依存関係として追加されるのはいつですか?
Apache ビームはいつリリースされますか? 最初のリリースで ETL を実行するために Oracle RDBMS に接続する機能はありますか?
google-cloud-dataflow - クラス apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum のピッキング エラーを解決するにはどうすればよいですか?
データ パイプラインをリモートで実行すると、PicklingError が発生します。データ パイプラインは Beam SDK for Python を使用して作成されており、Google Cloud Dataflow 上で実行しています。ローカルで実行すると、パイプラインは正常に動作します。
次のコードは PicklingError を生成します: これで問題が再現されるはずです
以下は、トレースバックの最初と最後からのサンプルです。
apache-beam - EclipseでWordCountの例を実行中のApache-Beam例外
を使用してEclipseでダウンロードされたMaven依存関係
gs パスを C://examples//misc.txt に変更した後、 WordCountの例をダウンロードして実行すると 、以下の例外が発生します。ランナーを渡しませんでした。Eclipse からの実行中にランナー オプションと出力パラメータを渡す方法は? ?
google-cloud-platform - 環境変数を Python SDK の環境変数として Dataflow ワーカーに到達させる方法
python sdk でカスタム シンクを作成します。AWS S3 にデータを保存しようとしています。S3 に接続するには、何らかのクレデンシャル (秘密鍵) が必要ですが、セキュリティ上の理由からコードに設定するのは良くありません。環境変数が環境変数として Dataflow ワーカーに到達するようにしたいと考えています。どうすればいいですか?
apache-beam - Apache Beam maven の依存関係: jdbc パッケージが skd jar ファイルにダウンロードされない
を使用してEclipseでダウンロードされたMaven依存関係
org.apache.beam.sdk.io のみ、org.apache.beam.sdk.io.range のみダウンロードされます。しかし、.io.jdbc は依存関係でダウンロードされていません。
上記以外に、これに使用する必要がある特定の artifactId はありますか?
apache-beam - Beamを使用したOracleからのJDBCフェッチ
以下のプログラムは、Oracle 11g に接続してレコードを取得するためのものです。これまで、pipeline.apply() でコーダーに NullPointerException が発生しています。
プロジェクトの依存関係に ojdbc14.jar を追加しました。
以下のエラーが発生しています。手がかりはありますか?
apache-beam - Wordcount の出力が別のファイルに保存されている
WordCount の出力は、複数のファイルに格納されています。ただし、開発者は、ファイルがクラスターにとどまる場所 (ip、パス) を制御できません。MapReduce API には、開発者がこれに対処するための reduce プログラムを作成するための規定があります。ApacheBeam で DirectRunner またはその他のランナーを使用してこれを処理するにはどうすればよいですか?