1

Tensorflow を使用して、文の長さが異なる LSTM モデルを設計しようとしています。PTB データセット ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/models/rnn/ptb/ptb_word_lm.py ) に関するチュートリアルを見つけました。このモデルは、さまざまな長さのインスタンスをどのようにキャプチャしますか? この例では、可変サイズのシーケンスを処理するためのパディングやその他の手法については何も説明していません。

パディングを使用する場合、アンローリング ディメンションはどれくらいにする必要がありますか?

4

2 に答える 2

1

これは 2 つの方法で行うことができます。

  1. TF には、入力サイズを指定する方法があります。「sequence_length」というパラメーターを探してください。私はこれを tf.nn.bidirectional_rnn で使用しました。したがって、TF は、ステップ サイズではなく、sequence_length までのみセルを展開します。

  2. 定義済みのダミー入力と定義済みのダミー出力 (ダミー出力用) で入力をパディングします。lstm セルは、ダミー入力に対するダミー出力を予測することを学習します。それを使用する場合(行列計算など)、ダミーパーツをチョップします。

于 2017-08-15T17:42:00.293 に答える
0

PTB モデルは時間的に切り捨てられます。常に一定数のステップ (configs の num_steps) を逆伝播します。したがって、パディングはありません。データを読み取って次の単語を予測しようとし、常に num_steps 単語を一度に読み取ります。

于 2016-07-18T23:11:22.897 に答える