生データ用のカスタム TensorFlow データセットを実装しました。tensorflow.data.Dataset
次のように、データをダウンロード、準備、およびロードできます。
import tensorflow_datasets
builder = tensorflow_datasets.builder("my_dataset")
builder.download_and_prepare()
ds = builder.as_dataset()
モデル トレーニングのために、このデータをTensorFlow Transform パイプラインで変換したいと考えています。ただし、データセットを変換パイプラインに渡すことができた唯一の方法は、データセットをインスタンス dict に変換し、生データのメタデータを渡すことです。
instance_dicts = tensorflow_datasets.as_dataframe(ds).to_dict(orient="records")
with tensorflow_transform.beam.Context():
(transformed_data, _), transform_fn = (
instance_dicts,
RAW_DATA_METADATA,
) | tensorflow_transform.beam.AnalyzeAndTransformDataset(
preprocessing_fn, output_record_batches=True
)
TensorFlow Dataset を TensorFlow Transform パイプラインに渡す、より簡単でメモリ効率の良い方法はありますか?