私はApacheビームで次のことをしようとしています。
具体的には、テンソルフロー ニューラル ネットワークの前処理。
- フォルダの各ファイルに対して。
- ファイルの各行
- float の 1d リストへの行の処理
- ファイルの各行
各ファイルの浮動小数点数の 2 次元リストになるように各リターンが必要です。
ネストされたパイプラインを作成することでこれを達成できると思います。
別のパイプラインの ParDo 内でパイプラインを作成して実行できます。
これは非効率に思えますが、私の問題はかなり標準的な使用例のようです。
- Apache Beam でこれを改善するツールはありますか?
- 問題を再構築して、Apache Beam でより適切に機能させる方法はありますか?
- ネストされたパイプラインは、私が思っているほど悪くはありませんか?
ありがとう