python - TensorFlow データセットを TensorFlow Transform パイプラインに渡すにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/68577210 2021-07-29T13:52:15.743

96 次

生データ用のカスタム TensorFlow データセットを実装しました。tensorflow.data.Dataset次のように、データをダウンロード、準備、およびロードできます。

import tensorflow_datasets

builder = tensorflow_datasets.builder("my_dataset")
builder.download_and_prepare()
ds = builder.as_dataset()

モデルトレーニングのために、このデータをTensorFlow Transform パイプラインで変換したいと考えています。ただし、データセットを変換パイプラインに渡すことができた唯一の方法は、データセットをインスタンス dict に変換し、生データのメタデータを渡すことです。

instance_dicts = tensorflow_datasets.as_dataframe(ds).to_dict(orient="records")
with tensorflow_transform.beam.Context():
    (transformed_data, _), transform_fn = (
        instance_dicts,
        RAW_DATA_METADATA,
    ) | tensorflow_transform.beam.AnalyzeAndTransformDataset(
        preprocessing_fn, output_record_batches=True
    )

TensorFlow Dataset を TensorFlow Transform パイプラインに渡す、より簡単でメモリ効率の良い方法はありますか?

python - TensorFlow データセットを TensorFlow Transform パイプラインに渡すにはどうすればよいですか?

1 に答える 1

Related

Reference