5

画像キャプションに VGG 16-Layer Caffe モデルを使用し、画像ごとに複数のキャプションを付けました。次に、それらのキャプション (単語) から文を生成したいと考えています。
LSTM に関する論文を読んで、トレーニング ネットワークから SoftMax レイヤーを削除し、4096 特徴ベクトルをfc7レイヤーから直接 LSTM に提供する必要があると読みました。
私はLSTMとRNNのことは初めてです。
どこから始めればよいですか?シーケンスのラベル付けによって文を生成する方法を示すチュートリアルはありますか?

4

1 に答える 1

4

私の知る限り、BVLC/caffe のマスター ブランチは、リカレント レイヤー アーキテクチャをまだサポートしていません。

jeffdonahue/cafferecurrentからブランチをプルする必要があります。このブランチは RNN と LSTM をサポートしています。また、 MS COCOデータを使用してトレーニングされた画像キャプションを生成する方法の詳細な も含まれています。

于 2015-12-28T13:59:55.933 に答える