0

Tensorflow Data Validation を使用して、データから統計を生成し、スキーマを推測して TFX に入力しています。

NaN 値を指定するオプションが見つかりません。たとえば、パンダには、データを読み取るときに NaN と見なされる値を指定できるフィールド「na_values」があります。

TFDV のドキュメント全体を調べましたが、見つかりませんでした。

tfdv.generate_statistics_from_csv(
    data_location,
    column_names=None,
    delimiter=',',
    output_path=None,
    stats_options=options.StatsOptions(),
    pipeline_options=None
)

options.StatsOptions() は、sample_count、sample_rate などの統計を生成するためのオプションです...

私にとっては、欠損値を処理するデータを読み取り、データを Csv または TFRecord として保存し、TFDV にインポートして統計を生成するのは意味がありません。

4

1 に答える 1