spark parquet ファイルから h2o フレームを作成して、フレームをインポートしようとしています。ファイルは 2GB で、約 12M 行と 12k 列のスパース ベクトルがあります。寄木細工の形式ではそれほど大きくありませんが、インポートには時間がかかります。h2o では、実際には 447 MB の圧縮サイズとして報告されています。実際にはかなり小さい。
私はそれを間違っていますか?実際にインポートを終了したとき(39分かかりました)、h2oにフレームをディスクに保存して次回高速ロードするためのフォームはありますか??
h2o が舞台裏で非常に長い時間がかかる魔法を行っていることは理解していますが、11k x 1M のスパース データでは遅くて巨大なダウンロード csv オプションしか見つかりませんでした。
足りない部分があるような気がします。h2o データのインポート/エクスポートに関する情報は大歓迎です。モデルの保存/ロードはうまく機能しますが、トレーニング/検証/テスト データのロードは非常に遅い手順のようです。
私はそれぞれ 10g のスパークワーカーを 10 個手に入れ、ドライバーに 8g を与えました。これで十分でしょう。