問題タブ [conv-neural-network]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
neural-network - トレーニング画像分類子 - ニューラル ネットワーク
画像内の手の存在を検出するように conv ニューラル ネットワークをトレーニングしたいと思います。
難点は次のとおりです: 1/ 画像には手以外のオブジェクトが含まれます。ちょうど、手が画像のほんの一部である人々のグループの写真のように、2/ 手は多くの向き/形状などを持つことができます (角度等により、開いていたり開いていなかったりします。)
トリミングされた手の画像(+手のないランダムな画像)の大きなセットでconvnetをトレーニングし、画像のすべてのサブスクエアに分類子を適用することを考えていました。これは良いアプローチですか?
インスピレーションに使用できる複雑な 2 クラスの convnets / RNN の他の例はありますか?
ありがとうございました!
machine-learning - torch - LookupTable と勾配の更新
複数のレイヤーを持つニューラル ネットワークを実装しようとしています。私が行ったことが正しいかどうかを理解しようとしています。そうでない場合は、どうすればこれをデバッグできますか。私が行う方法は、次の方法でニューラル ネットワークを定義することです (事前に学習した埋め込みでルックアップ可能レイヤーを初期化します)。
ここで、ネットワークをトレーニングするために、すべてのトレーニングの例をループし、すべての例に対して、次のコードを持つ gradUpdate() を呼び出します (これは例からそのままです)。
findGrad 関数は、勾配 wrt 出力を返す WARP Loss の単なる実装です。これだけでいいのかな?これにより、すべてのレイヤーのパラメーターが逆伝播されて更新されると思います。これを確認するために、このネットワークをトレーニングし、モデルを保存しました。次に、モデルをロードして実行しました:
今、私は vector[1] と lookuptable.weight[1] をチェックしましたが、それらは同じでした。ルックアップ テーブル レイヤーの重みが更新されなかった理由がわかりません。ここで何が欠けていますか?
返信をお待ちしております。
machine-learning - pylearn2 の npy ファイルから画像データをグレースケールに変換する
pylearn2 を使用して単純な畳み込みニューラル ネットワークをトレーニングしています。RGB 画像データを npy ファイルに保存しています。そのデータをnpyファイルから直接グレースケールデータに直接変換する方法はありますか?
machine-learning - Convolutional Neural Network でネットワークの深さを動的に見つける方法
データとコンピューターの構成に応じて、ネットワークに適用するレイヤーの数を自動的に決定する方法を探していました。ウェブで検索しましたが、何も見つかりませんでした。私のキーワードや探し方が間違っているのかもしれません。
何か考えはありますか?
machine-learning - pylearn2 の隠れ層でリーキーな ReLus を活性化関数として使用する方法
CNN を設計するために pylearn2 ライブラリを使用しています。Leaky ReLus を活性化関数として 1 つのレイヤーで使用したいと考えています。pylearn2 を使用してこれを行う方法はありますか? カスタム関数を作成する必要がありますか、それともpylearn2には関数が組み込まれていますか? もしそうなら、カスタムコードを書く方法は? ここで誰か助けてくれませんか?
machine-learning - pylearn2 で cuda_convnet エラーをコンパイルできませんでした
Windows Server 2012 で pylearn2 を使用して CNN をコンパイルしようとしています。しかし、ネットワークに MaxoutConvC01B が含まれていると、コンパイルに失敗し、エラー メッセージが表示されます。
RuntimeError: (「ノードのコンパイル中に次のエラーが発生しました」、(GpuContiguous.0)、「\n」、「cuda_convnet をコンパイルできませんでした」)
この問題を解決するための助けをお願いします。
javascript - convnetjs からの列車データが理解できない
javascript でニューラル ネットワークを使用してデータを予測しようとしています。そのために、使いやすいと思われるconvnetjsを見つけました。
この例では、MagicNet と呼ばれるものを 1 つ使用しているため、それを使用するために NN について知る必要はありません。これは使用例です:
私が理解できないのはこれです:彼らは次のような列車データを作成[new convnetjs.Vol([1.3, 0.5]), new convnetjs.Vol([0.1, 0.7])]
し、2つのラベルを使用します。これらのラベルは、配列の各位置またはそれらの位置にあるサブ配列の各要素に 1 つずつありますか??
視覚的な例を次に示します。
それは[new 0, new 1]
好き[new convnetjs.Vol([0, 1]), new convnetjs.Vol([0, 1])]
ですか?
machine-learning - .txt を .idx3-ubyte 形式に変換するには?
私は畳み込みニューラル ネットワークに基づくプロジェクトを行っており、トレーニング イメージとテスト データに MNisT データベースを使用しています。カンナダ数字に対してこれを行いたいのですが、データセットに使用した形式は .txt であり、idx3-ubyte 形式のみを使用したベース コードです。.txt ファイルを .idx3-ubyte に変換できるツールを教えてください。
computer-vision - Caffe は画像のピクセルを直接分類できますか?
画像のピクセルを「通り」または「通りではない」に分類したいと思います。KITTI データセットからのトレーニング データがいくつかあり、Caffe にIMAGE_DATA
レイヤー タイプがあることがわかりました。ラベルは、入力画像と同じサイズの画像の形式で存在します。
Caffe の他に、この問題を解決するための私の最初のアイデアは、分類する必要があるピクセルの周囲に画像パッチを与えることでした (たとえば、上/左/右/下に 20 ピクセル、分類したいピクセルごとに 41×41=1681 の機能が得られます)。ただし、
これらの画像パッチを手動で作成せずにラベルを使用する方法を caffe に伝えることができれば (レイヤーの種類IMAGE_DATA
はそれが可能であることを示唆しているようです)、私はそれを好みます。
Caffe は画像のピクセルを直接分類できますか? このような prototxt ネットワーク定義はどのようになりますか? ラベルに関する情報を Caffe に提供するにはどうすればよいですか?
入力層は次のようになると思います
ただし、crop_size
正確な意味はわかりません。本当に中心ですか?caffe は角のピクセルをどのように処理しますか? new_height
とは何new_width
ですか?