私は、履歴書を分類することからなるマルチクラス分類問題に取り組んでいます。
sklearn とその TfIdfVectorizer を使用して、大きな scipy スパース マトリックスを取得し、ピクルス化した後に Tensorflow モデルにフィードしました。私のローカル マシンで、それをロードし、小さなバッチを高密度の numpy 配列に変換し、フィード ディクショナリを埋めます。すべてがうまく機能します。
今度は ML クラウドで同じことをしたいと思います。pickle は に保存されてgs://my-bucket/path/to/pickle
いますが、トレーナーを実行すると、この URI ( ) に pickle ファイルが見つかりませんIOError: [Errno 2] No such file or directory
。私はpickle.load(open('gs://my-bucket/path/to/pickle), 'rb')
自分のデータを抽出するために使用しています。これは GCS でファイルを開く良い方法ではないと思いますが、私は Google Cloud にまったく慣れていないため、適切な方法が見つかりません。
また、入力データに TFRecords または CSV 形式を使用する必要があることを読みましたが、私の方法が機能しなかった理由がわかりません。行列の密な表現は大きすぎてメモリに収まらないため、CSV は除外されます。TFRecords はそのようなまばらなデータを効率的にエンコードできますか? pickle ファイルからデータを読み取ることは可能ですか?