1

私は CaffeNet (より正確には 2 クラス分類用の Cifar10 モデル) モデルをトレーニングします。これで、モデルを検出する準備が整いました。単一の画像を使用したモデル テストでは、test_predict_imagenet.cpp. 640 x 480 の画像でコードがどれだけ速く実行できるかはテストしていません。私の目標は、5~10 フレーム/秒が好きで、オフライン検出にちょうどいいです。各フレームで歩行者を見逃さないように、マルチサイズ検出を実装する必要があることを理解しています (つまり、顔検出で行っているようなもので、元の画像サイズはさまざまな小さいサイズに合わせてサイズ変更されます)。

この論文によると、トレーニングでは 64 x 128 の画像サイズを使用し、検出には 3 ミリ秒/ウィンドウ、100 ウィンドウ/画像の場合は 300 ミリ秒/フレームが必要です。彼らがマルチサイズ検出アプローチを実装しているかどうかはわかりません。マルチサイズが実装されている場合は、さらに時間がかかります。

現時点ではtest_predict_imagenet.cpp、マルチサイズ検出の実装方法についての知識しかありません。私はそれが非常に遅いことを知っています。CaffeNet モデルを使用したより効率的な検出方法はありますか? 私の目標は、5〜10フレーム/秒のレートでちょうどいいです。ありがとう

4

0 に答える 0