問題タブ [tensorflow-data-validation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow2.0 - tfdv.display_schema() で SchemaGen がサポートされていないのはなぜですか?
TFX の tensorflow-data-validation に関して、いつ *Gen コンポーネントを使用する必要があるか、TFDV が提供するメソッドを使用する必要があるかを理解しようとしています。
具体的には、私を混乱させているのは、これを私のExampleGenとして持っていることです:
そこで、元の列車ファイルからではなく、列車の分割から統計を生成したいと考えたので、次のようにしてみました。
そしてそれはうまくいきます。しかし、その後、スキーマを推測してみました (ブザー音を挿入):
故意に、これにより以下のエラーが発生します。私はそれが正しいタイプではないことを十分に期待していましたが、StatsGen オブジェクトから適切な出力を抽出して infer_schema() メソッドにフィードする方法がわかりません。
または、*Gen ベースのコンポーネント構造のみを追求すると、ビルドされますが、スキーマや統計などを適切に視覚化する方法がわかりません。最後に、ここで tfdv.infer_schema() 呼び出しを使用している理由同様に不運な「display_schema()」呼び出しで、SchemaGen に渡そうとするとエラーが発生します。
上記のエラー:
私が実際に理解しようとしているのは、なぜ SchemaGen や StatisticsGen などのコンポーネントを使用して、TFDV から価値を得るために内部関数を使用する必要があるのかということです。インタラクティブなパイプラインと非インタラクティブなシナリオを提供していると思いますが、グーグルでは不明です。
ファイル リーダーに頼るのではなく、データの分割に基づいて統計情報を生成して表示する方法があれば、それも知りたいです。(明らかでない場合は、はい、私は TFX を初めて使用します)。
ティア
tensorflow2.0 - TensorFlow Extended: スキーマで機能の有効性を指定する
現在、TensorFlow Extended (TFX) パイプラインを介して、いくつかの多価機能列を含むデータセットをフィードしようとしています。サンプルデータの行は次のとおりです。
ご覧のとおり、列 (機能) touched_product_id
、liked_product_id
、disliked_product_id
は多価です。
ここで、このデータを TFX の検証レイヤーにフィードするために、以下のガイドに従っています。
https://www.tensorflow.org/tfx/tutorials/tfx/components_keras
ガイドに従って、TFRecord
のインスタンスを使用していくつかのファイルをCSVExampleGen
生成し、以下に示すように統計とスキーマの生成に進みます。
上記のコードによって表示される最終的なスキーマは次のとおりです。
明らかに、多価機能は一価であると誤って推測されています。これを修正するために、プロトを手動でロードし、プロパティSchema
を調整しようとしました。valence
valence
驚いたことに、プロパティがないため、明らかに最後の行は機能しません。プロトの仕様を調べてみましたが、プロパティSchema
が見つかりませんでした。valence
これを解決する方法を知っている人はいますか?どんなガイダンスも素晴らしいでしょう。