問題タブ [tensorflow-datasets]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - tf.data.Dataset への膨大なデータセットの最適なデータ ストリーミングおよび処理ソリューション
環境:
私のテキスト入力パイプラインは現在、次の 2 つの主要部分で構成されています。
私は。複雑なテキストの前処理とtf.SequenceExamples
tfrecords へのエクスポート (カスタム トークン化、語彙の作成、統計計算、正規化、および完全なデータセットと個々の例ごとのその他多数)。これは、データ構成ごとに 1 回行われます。
Ⅱ.トレーニング中にもかなりの処理を行う tf.Dataset (TFRecords) パイプライン (string_split
文字、テーブル ルックアップ、バケット化、条件付きフィルタリングなど)。
元のデータセットは、複数の場所 (BigQuery、GCS、RDS など) に存在します。
問題:
問題は、本番データセットが急速に (数テラバイト) 増加するにつれて、可能なデータ構成ごとに tfrecords ファイルを再作成することが現実的でないことです (パート 1 には多数のハイパーパラメーターがあります)。言うまでもなく、または tfrecords のサイズが大きくなると、tf.Dataset
読み取り速度が驚くほど遅くなります。tf.SequenceExamples
かなりの数の可能な解決策があります:
- Apache Beam + Cloud DataFlow + feed_dict;
- tf.Transform;
- Apache Beam + Cloud DataFlow + tf.Dataset.from_generator;
- tensorflow/エコシステム + Hadoop または Spark
- tf.contrib.cloud.BigQueryReader
、しかし、次のいずれも私の要件を完全に満たしていないようです:
- パート I のように、BigQuery、GCS、RDS などからのオンザフライ データのストリーミングと処理。
- データ (プロトス?) を何らかの方法で直接送信して
tf.Dataset
、パート II で使用します。 - トレーニングと推論の両方で高速で信頼性があります。
(オプション) データの選択された部分に対していくつかのフルパス統計を事前に計算できること。
編集: Python 3 のサポートは素晴らしいでしょう。
tf.data.Dataset
パイプラインに最も適した選択肢は何ですか? この場合のベストプラクティスは何ですか?
前もって感謝します!
python - 作成されたテンソルフロー モデルを予測に使用する
ワイド アンド ディープ ラーニング モデルを作成する方法について説明しているこの Tensorflow 記事のソース コードを見ています。https://www.tensorflow.org/versions/r1.3/tutorials/wide_and_deep
Python ソース コードへのリンクは次のとおりです: https://github.com/tensorflow/tensorflow/blob/r1.3/tensorflow/examples/learn/wide_n_deep_tutorial.py
その目的は、国勢調査情報のデータを基に、年収が 5 万ドルを超えるか下回るかを予測するモデルをトレーニングすることです。
指示どおり、次のコマンドを実行して実行しています。
私が得る結果は次のとおりです。
私がオンラインで見たさまざまな記事では、.ckpt
ファイルへのロードについて説明しています。モデル ディレクトリを見ると、次のファイルが表示されます。
私が使用するものはだと思いますがmodel.ckpt-1.meta
、それは正しいですか?
しかし、このモデル データの使用方法とフィード方法についても混乱しています。Tensorflow のウェブサイトでこの記事を見てきました: https://www.tensorflow.org/versions/r1.3/programmers_guide/saved_model
これは、「Estimators は変数を (model_dir に) 自動的に保存および復元することに注意してください」と述べています。(この文脈でそれが何を意味するのかはわかりません)
給与を除いて、国勢調査データの形式で情報を生成するにはどうすればよいですか? 予測を行うためにトレーニング済みモデルを使用できるようにするために、2 つの Tensorflow 記事を使用する方法は私には明らかではありません。