1

生データ用のカスタム TensorFlow データセットを実装しました。tensorflow.data.Dataset次のように、データをダウンロード、準備、およびロードできます。

import tensorflow_datasets

builder = tensorflow_datasets.builder("my_dataset")
builder.download_and_prepare()
ds = builder.as_dataset()

モデル トレーニングのために、このデータをTensorFlow Transform パイプラインで変換したいと考えています。ただし、データセットを変換パイプラインに渡すことができた唯一の方法は、データセットをインスタンス dict に変換し、生データのメタデータを渡すことです。

instance_dicts = tensorflow_datasets.as_dataframe(ds).to_dict(orient="records")
with tensorflow_transform.beam.Context():
    (transformed_data, _), transform_fn = (
        instance_dicts,
        RAW_DATA_METADATA,
    ) | tensorflow_transform.beam.AnalyzeAndTransformDataset(
        preprocessing_fn, output_record_batches=True
    )

TensorFlow Dataset を TensorFlow Transform パイプラインに渡す、より簡単でメモリ効率の良い方法はありますか?

4

1 に答える 1