問題タブ [apache-beam]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
560 参照

google-bigquery - Python で Dataflow パイプラインを使用して、Google Datastore から BigQuery へのデータ転送

Google Cloud Datastore から Bigquery へのデータ転送に問題があります。このジョブのために Python でデータフロー スクリプトを作成する必要があります。このジョブは、Python でパイプラインを使用してデータストアから BigQuery にデータを転送する必要があります。Python でこのジョブを実行するには、「Apache Beam」ライブラリが必要ですが、Apache Beam ライブラリが機能していません。誰でも私たちを助けることができますか?

0 投票する
0 に答える
337 参照

python - ImportError を発生させる Dataflow Python SDK は、パイプラインがビューで作成される

私は Python Dataflow wordcount_minimal.py の例を実行していますが、正常に動作しています。

とにかく、私は今、Flaskビュー内からパイプラインを作成しようとしていますが、奇妙な理由ですべて失敗し続けています:

ImportError: Cannot re-init internal module __main__

これはdillパッケージによって発生します。具体的には次のとおりです。

https://github.com/uqfoundation/dill/blob/master/dill/dill.py#L67

新しい virtualenv の作成や、他の依存関係のない単純な Flask アプリの作成など、いくつかのテストを行いました。必要なパッケージはすべて次のとおりです。

問題は解決しません。また、Dataflow Python SDK と dill パッケージ リポジトリの両方で、github の問題リストには何も見つかりませんでした。

0 投票する
1 に答える
167 参照

apache-beam - Apache ビームが jar ファイルとしてリリースされ、Eclipse でプロジェクトの依存関係として追加されるのはいつですか?

Apache ビームはいつリリースされますか? 最初のリリースで ETL を実行するために Oracle RDBMS に接続する機能はありますか?

0 投票する
3 に答える
3740 参照

google-cloud-dataflow - クラス apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum のピッキング エラーを解決するにはどうすればよいですか?

データ パイプラインをリモートで実行すると、PicklingError が発生します。データ パイプラインは Beam SDK for Python を使用して作成されており、Google Cloud Dataflow 上で実行しています。ローカルで実行すると、パイプラインは正常に動作します。

次のコードは PicklingError を生成します: これで問題が再現されるはずです

以下は、トレースバックの最初と最後からのサンプルです。

0 投票する
1 に答える
686 参照

apache-beam - EclipseでWordCountの例を実行中のApache-Beam例外

を使用してEclipseでダウンロードされたMaven依存関係

gs パスを C://examples//misc.txt に変更した後、 WordCountの例をダウンロードして実行すると 、以下の例外が発生します。ランナーを渡しませんでした。Eclipse からの実行中にランナー オプションと出力パラメータを渡す方法は? ?

0 投票する
1 に答える
5012 参照

google-cloud-platform - 環境変数を Python SDK の環境変数として Dataflow ワーカーに到達させる方法

python sdk でカスタム シンクを作成します。AWS S3 にデータを保存しようとしています。S3 に接続するには、何らかのクレデンシャル (秘密鍵) が必要ですが、セキュリティ上の理由からコードに設定するのは良くありません。環境変数が環境変数として Dataflow ワーカーに到達するようにしたいと考えています。どうすればいいですか?

0 投票する
2 に答える
441 参照

apache-beam - Apache Beam maven の依存関係: jdbc パッケージが skd jar ファイルにダウンロードされない

を使用してEclipseでダウンロードされたMaven依存関係

org.apache.beam.sdk.io のみ、org.apache.beam.sdk.io.range のみダウンロードされます。しかし、.io.jdbc は依存関係でダウンロードされていません。

上記以外に、これに使用する必要がある特定の artifactId はありますか?

0 投票する
2 に答える
2252 参照

apache-beam - Beamを使用したOracleからのJDBCフェッチ

以下のプログラムは、Oracle 11g に接続してレコードを取得するためのものです。これまで、pipeline.apply() でコーダーに NullPointerException が発生しています。

プロジェクトの依存関係に ojdbc14.jar を追加しました。

以下のエラーが発生しています。手がかりはありますか?

0 投票する
1 に答える
147 参照

apache-beam - Wordcount の出力が別のファイルに保存されている

WordCount の出力は、複数のファイルに格納されています。ただし、開発者は、ファイルがクラスターにとどまる場所 (ip、パス) を制御できません。MapReduce API には、開発者がこれに対処するための reduce プログラムを作成するための規定があります。ApacheBeam で DirectRunner またはその他のランナーを使用してこれを処理するにはどうすればよいですか?