問題タブ [conv-neural-network]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
12 に答える
486493 参照

cuda - CuDNN のインストールを確認するには?

私は多くの場所を検索しましたが、インストールされていることを確認する方法ではなく、インストールする方法だけが得られます。NVIDIA ドライバーがインストールされていること、および CUDA がインストールされていることは確認できますが、CuDNN がインストールされていることを確認する方法がわかりません。助けていただければ幸いです、ありがとう!

PS。
これはカフェの実装用です。現在、CuDNN を有効にせずにすべてが機能しています。

0 投票する
1 に答える
585 参照

python - 畳み込みニューラルネットワーク?

「ムード検出」のプロジェクトに取り組んでいます。

完全な製品を作るための最初のステップとして、画像処理から始めました。Convolution-Neural-Network が最良のアプローチであることをインターネットから学びました。

上記は私が書いたコードです - 値 (850000,1100000) は、行列の畳み込み範囲の合計の値です (コードが非常に粗雑で申し訳ありません。今朝書き始めました)。

私が求めている質問は、重みを格納するマトリックスを設計または取得する方法です。

1) あらゆる種類のオブジェクト検出 (つまり、「車」と「顔」に異なる値を与える大まかな単層 CNN) に対して 1 つのマトリックスだけで間に合わせることができますか、または "車」と「顔」?

2) 同じオブジェクトの異なるサイズを処理する方法は? インターネットで見つけた解決策の 1 つは、元の画像のサイズを変更し続けることです。より速いアプローチがあるかどうか知りたいですか?

3) 逆伝播において、最適化された重み行列を取得するために与える大まかな条件は何ですか?

0 投票する
1 に答える
6102 参照

image-processing - Haarカスケード法と畳み込みニューラルネットワーク?

ハールカスケード法では、マスクサイズが一定で、画像内の顔のさまざまなサイズを考慮して、元の画像を縮小および拡大してオーバーラップを見つけるかどうか疑問に思っていました。

畳み込みニューラル ネットワークでは、重み行列のサイズが 20*20 で一定であることがわかりました。

これとは別に、haar cascade と CNN のどちらが顔検出に適しているかを知りたいです。その場合は、haar cascade を使用して最初に顔の位置を検出し、さらに CNN を使用して顔を認識することができます。

Ps :-face は単なるオブジェクトです。車や木など、他のものでもかまいません.....

0 投票する
1 に答える
87 参照

python - 異なる画像に対する同じ fc6 応答

フィルターの視覚化分類の例の指示に従って、fc6事前トレーニング済みモデル (bvlc 参照モデル) からフォルダー内の複数の異なる画像への (完全に接続されたレイヤー6) 応答を取得しますが、すべての画像に対して同じベクトルを取得します。使用したコードは次のとおりです。

PS: このデータを後で使用できるファイル (txt や csv など) に保存し、Python を使用せずに読み取って開くことができる簡単な方法はありますか?

0 投票する
1 に答える
597 参照

c++ - Cifar10 予測出力を理解する方法は?

2 つのクラス分類用にCifar10( caffe ) モデルをトレーニングしました。歩行者と非歩行者。トレーニングは問題ないようcaffemodelです。ファイルの重みを更新しました。歩行者用の画像 (64 x 160) と背景画像 (64 x 160) と共に、歩行者用のラベル 1 と非歩行者用の 2 の 2 つのラベルを使用しました。トレーニング後、ポジ画像(歩行者画像)とネガ画像(背景画像)でテストを行います。私のテストprototxtファイルは以下のとおりです

テストのために、test_predict_imagenet.cpp特にパスと画像サイズを使用していくつかの変更を加えました。

テスト出力がわかりません。ポジティブイメージでテストすると、次のような出力が得られました

ネガ画像でテストすると、次のような出力が得られました

テスト出力を理解するには?

ビデオ フィード (ビデオ クリップのフレームごと) からモデルをテストするための、より効率的なテスト アルゴリズムはありますか?

0 投票する
3 に答える
11192 参照

c++ - Caffe でトレーニング/検証プロセスを監視する

画像を分類するために Caffe Reference Model をトレーニングしています。私の仕事では、それぞれ 100K と 50K の画像を持つトレーニング セットと検証セット全体で 1000 回の反復ごとにモデルの精度のグラフを描画して、トレーニング プロセスを監視する必要があります。現在、私は素朴なアプローチを採用しており、1000回の反復ごとにスナップショットを作成し、生のJPEG画像を読み取ってネットに転送し、予測されたラベルを出力するC++分類コードを実行しています。ただし、これは私のマシン (Geforce GTX 560 Ti を使用) では時間がかかりすぎます。

トレーニング セットと検証セットの両方でスナップショット モデルの精度のグラフを取得するためにできる、より高速な方法はありますか?

生の画像の代わりに LMDB 形式を使用することを考えていました。ただし、LMDB 形式を使用して C++ で分類を行うことに関するドキュメント/コードが見つかりません。

0 投票する
1 に答える
149 参照

python-2.7 - 畳み込みニューラルネットワーク?

さて、私はニューラルネットワークの考え方を理解し始めていますが、特に画像処理のための畳み込みニューラルネットワークの使用/利点/実装をまだ理解できていません.

私が理解していないのは、異なるサイズのオブジェクトを検出する方法です。

50*50 の重み行列と、50*50 サイズのトレーニング セットに顔があるとします。行列の加重合計を取ると、 "X" などの特定の値が返されます。これで、画像全体に重み行列を実行して、顔を検出した ~"X" の重み付き合計を与える領域をロックするというアイデアを理解しました。

上記の理解が正しい場合、サイズ 25*25 のイメージが "X" のどこにでも値を複製することはどのように行われるのでしょうか。したがって、基本的な問題は、画像の相対的なサイズをどのように処理するかです。

可能であれば、同じための優れたチュートリアルをいくつか提案してください。