1

TensorFlow で RNN 言語モデルを構築しています。私の生の入力は、テキストのファイルで構成されています。私はそれらをトークン化することができるので、私が扱っているデータは語彙へのインデックスである整数のシーケンスです。

の例に従って、 feed_dictメソッドptb_word_lm.pyを介してトレーニング データを取得する言語モデルを構築するコードを記述しました。ただし、メモリに収まるデータ セットに制限されたくないので、代わりにファイル パイプラインを使用してデータを読み込みたいと考えています。これを行う方法の例が見つかりません。

私が見たファイル パイプラインの例はすべて、長さ 1 のテンソルであるラベルに関連付けられた長さnのテンソルを持っています。 0 から 9 の範囲のラベル。) ただし、RNN トレーニング データは、n 個の連続するトークンのベクトルと、同じくn 個の連続するトークン (ベクトルの 1 つ前にシフト) で構成されるラベルで構成されます。次に例を示します。

"the quick brown fox jumped"
vectors (n=3): the quick brown, quick brown fox, brown fox jumped
labels (n=3): quick brown fox, brown fox jumped, fox jumped EOF

ファイル パイプラインを記述して、この形状のデータを TensorFlow グラフにフィードする方法を示すコード スニペットを教えてもらえますか?

4

0 に答える 0