Tensorflow Data Validation を使用して、データから統計を生成し、スキーマを推測して TFX に入力しています。
NaN 値を指定するオプションが見つかりません。たとえば、パンダには、データを読み取るときに NaN と見なされる値を指定できるフィールド「na_values」があります。
TFDV のドキュメント全体を調べましたが、見つかりませんでした。
tfdv.generate_statistics_from_csv(
data_location,
column_names=None,
delimiter=',',
output_path=None,
stats_options=options.StatsOptions(),
pipeline_options=None
)
options.StatsOptions() は、sample_count、sample_rate などの統計を生成するためのオプションです...
私にとっては、欠損値を処理するデータを読み取り、データを Csv または TFRecord として保存し、TFDV にインポートして統計を生成するのは意味がありません。