画像キャプションに VGG 16-Layer Caffe モデルを使用し、画像ごとに複数のキャプションを付けました。次に、それらのキャプション (単語) から文を生成したいと考えています。
LSTM に関する論文を読んで、トレーニング ネットワークから SoftMax レイヤーを削除し、4096 特徴ベクトルをfc7
レイヤーから直接 LSTM に提供する必要があると読みました。
私はLSTMとRNNのことは初めてです。
どこから始めればよいですか?シーケンスのラベル付けによって文を生成する方法を示すチュートリアルはありますか?
1 に答える
4
私の知る限り、BVLC/caffe のマスター ブランチは、リカレント レイヤー アーキテクチャをまだサポートしていません。
jeffdonahue/cafferecurrent
からブランチをプルする必要があります。このブランチは RNN と LSTM をサポートしています。また、 MS COCOデータを使用してトレーニングされた画像キャプションを生成する方法の詳細な例
も含まれています。
于 2015-12-28T13:59:55.933 に答える