問題タブ [spotify-scio]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

81 問題

0 投票する

1 に答える

176 参照

google-cloud-storage - スケーリングに関する Dataflow TextIO.write の問題

pubsub からバイト配列を読み取り、それらをウィンドウ化し、GCS のテキストファイルに書き込む単純なデータフローパイプラインを作成しました。トラフィックの少ないトピックではこれが完全に機能することがわかりましたが、1 分あたり約 2.4GB のトピックで実行したところ、いくつかの問題が発生し始めました。

パイプラインを開始するとき、ワーカーの数を設定していませんでした (必要に応じて自動スケーリングされると想像していたので)。この量のデータを取り込むとき、ワーカーの数は 1 のままでしたが、TextIO.write() は 2 分のウィンドウを書き込むのに 15 分以上かかっていました。これは、メモリがなくなるまでバックアップされ続けます。このステップがバックアップされたときに Dataflow が自動スケーリングしない正当な理由はありますか?

ワーカーの数を 6 に増やしたとき、ファイルの書き込み時間は 5 分間のウィンドウで約 4 分から始まり、その後わずか 20 秒まで短縮されました。

また、ワーカを6体使用する場合、ウォールタイムの計算に問題がありそうですか？データフローが追いついたとしても、私のものは決してダウンするようには見えず、4時間実行した後、書き込みステップの要約は次のようになりました。

ジョブ ID: 2019-03-13_19_22_25-14107024023503564121

2019-03-14T18:57:11.283

0 投票する

1 に答える

181 参照

regex - 名前に日付が含まれる.txtファイルから日付を抽出するにはどうすればよいですか? (スカラ)

scala spotify scio を使用して、ビームプログラミングプロジェクトの入力として .txt ファイルがあります。

input= args.getOrElse("input", "/home/user/Downloads/trade-20181001.txt")

ファイル名から日付 2018-10-01 (10 月 1 日) を抽出するにはどうすればよいですか? ありがとうございました！

regex scala apache-beam spotify-scio

2019-04-05T01:10:24.323

0 投票する

1 に答える

2120 参照

google-cloud-dataflow - ビームパイプラインはウィンドウ処理を使用した GroupByKey の後で出力を生成せず、メモリエラーが発生しました

目的：

ストリームデータを読み込み、キーを追加して、キーごとにカウントしたい。

問題：

ストリーミングアプローチ (無制限のデータ) を使用して大きなサイズのデータを読み込んでキーごとにグループ化しようとすると、Apache Beam Dataflow パイプラインでメモリエラーが発生します。データがグループバイに蓄積されているようで、各ウィンドウのトリガーでデータを先に発射しないためです。

要素のサイズを小さくすると (要素の数は変わりません)、うまくいきます! 実際には group-by step はすべてのデータがグループ化されるのを待ってから、すべての新しいウィンドウ化されたデータを起動するためです。

私は両方でテストしました：

ビームバージョン 2.11.0 および scio バージョン 0.7.4

ビームバージョン 2.6.0 および scio バージョン 0.6.1

エラーを再生成する方法:

ファイル名を含む Pubsub メッセージを読み取る
関連ファイルをGCSから行ごとの反復子として読み取ってロードします
行ごとにフラット化する (約 10,000 の要素を生成する)
要素にタイムスタンプ (現在の時刻) を追加する
データのキー値を作成します (1 から 10 までのランダムな整数キーを使用)
トリガーを使用してウィンドウを適用します (行が小さく、メモリに問題がない場合、約 50 回トリガーされます)
キーごとにカウントします（キーごとにグループ化してから結合します）
最後に、ウィンドウとキーごとのカウントを表す約 50 * 10 の要素があると想定しました (行サイズが十分に小さい場合、正常にテストされました)。

パイプラインの視覚化 (ステップ 4 から 7 ):

group-by-key ステップの要約:

ご覧のとおり、データはグループごとに蓄積され、出力されません。

ウィンドウ処理コードは次のとおりです。

エラー：

グループバイに各ウィンドウの初期結果を強制的に発行させることで、メモリの問題を解決する解決策はありますか。

google-cloud-dataflow apache-beam spotify-scio

2019-04-12T16:31:03.123

1 2 3 4 5 6 7 8 9 10

問題タブ [spotify-scio]

google-cloud-storage - スケーリングに関する Dataflow TextIO.write の問題

regex - 名前に日付が含まれる.txtファイルから日付を抽出するにはどうすればよいですか? (スカラ)

google-cloud-dataflow - ビーム パイプラインはウィンドウ処理を使用した GroupByKey の後で出力を生成せず、メモリ エラーが発生しました

目的：

問題：

エラーを再生成する方法:

パイプラインの視覚化 (ステップ 4 から 7 ):

group-by-key ステップの要約:

ウィンドウ処理コードは次のとおりです。

エラー：

Reference

google-cloud-dataflow - ビームパイプラインはウィンドウ処理を使用した GroupByKey の後で出力を生成せず、メモリエラーが発生しました