問題タブ [deep-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 関数近似による Q ラーニングでは、手作りの機能を回避することは可能ですか?
私は機械学習の背景知識がほとんどないため、私の質問がばかげているように思われる場合はご容赦ください。
私が読んだことに基づいて、現時点で最高のモデルフリー強化学習アルゴリズムは Q-Learning であり、エージェントの世界の各状態とアクションのペアに q 値が与えられ、各状態で最高のアクションq 値が選択されます。その後、q 値は次のように更新されます。
Q(s,a) = (1-α)Q(s,a) + α(R(s,a,s') + (max_a' * Q(s',a'))) α は学習レート。
明らかに、高次元の問題では、状態の数が天文学的に大きくなり、q 値テーブルの格納が実行不可能になります。
そのため、Q ラーニングを実際に実装するには、状態 (特徴) の一般化による Q 値近似を使用する必要があります。たとえば、エージェントが Pacman の場合、機能は次のようになります。
- 最も近い点までの距離
- 最も近いゴーストまでの距離
- パックマンがトンネルに?
そして、すべての単一の状態の q 値の代わりに、すべての単一の機能の q 値のみが必要になります。
だから私の質問は:
強化学習エージェントが追加の機能を作成または生成することは可能ですか?
私が行ったいくつかの研究:
この投稿では、A Geramifard の iFDD メソッドについて言及しています。
- http://www.icml-2011.org/papers/473_icmlpaper.pdf
- http://people.csail.mit.edu/agf/Files/13RLDM-GQ-iFDD+.pdf
これは「機能の依存関係を発見する」方法ですが、論文では一連のバイナリ機能から始めることを想定しているため、それが機能の生成であるかどうかはわかりません。
私が見つけた別の論文は、Playing Atari with Deep Reinforcement Learningが適切であり、「さまざまなニューラル ネットワーク アーキテクチャを使用して高レベルの機能を抽出する」ものでした。
私は論文を読みましたが、まだ彼らのアルゴリズムを肉付けする/完全に理解する必要があります. これは私が探しているものですか?
ありがとう
python - python make_dataset.py -pylearn2 - トレーニング モデルを実行できません
Pylearn2 をインストールしました。pylearn2 を使用してモデルをトレーニングしたいと考えています。ここを参照: ここにリンクの説明を入力
しかし、ステップ 1: データセットの作成を実行し、grbm_smd ディレクトリからコマンド $python make_dataset.py を実行すると、エラーが発生しました。
$ python make_dataset.py
ファイルの読み込み中 /Users/k11067kk/pylearn2_data/cifar10/cifar-10-batches-py/data_batch_1
トレースバック (最新の呼び出しが最後):
ファイル「make_dataset.py」の 27 行目
ファイル "/Users/k11067kk/pylearn2/pylearn2/datasets/cifar10.py"、73 行目、init
ファイル "/Users/k11067kk/pylearn2/pylearn2/datasets/cifar10.py"、257 行目、_unpickle 内
TypeError: load() はキーワード引数を取りません
私はいくつかのテストを行い、パスを次のように設定しました: $export PYLEARN2_DATA_PATH=~/pylearn2_data 何が問題なのですか? これを解決する方法はありますか?ありがとう!
deep-learning - ロジスティック回帰に対する SoftMax の序数ターゲットの損失関数
Pylearn2 OR Caffe を使用して、深いネットワークを構築しています。私の目標は公称です。適切な損失関数を見つけようとしていますが、Pylearn2 または Caffe で見つけることができません。
「好みレベルの損失関数: 離散順序ラベルによる回帰」という論文を読みました。一般的なアイデアはわかりましたが、最後のレイヤーが Logistic Regression 上の SoftMax (確率を出力する) である場合、しきい値がどうなるかはわかりません。
そのような損失関数の実装を指摘することで、私を助けることができますか?
ありがとうございます。それでは、お元気で
numpy - InfogainLoss 層
InfogainLoss
モデルでタイプの損失レイヤーを使用したいと考えています。しかし、私はそれを適切に定義するのに苦労しています。
INFOGAIN_LOSS
レイヤーの使用に関するチュートリアル/例はありますか?この層への入力であるクラスの確率は、
SOFTMAX
層の出力である必要がありますか、それとも完全に接続された層の「上部」を入力するだけで十分ですか?
INFOGAIN_LOSS
クラス確率、ラベル、行列の 3 つの入力が必要H
です。マトリックスH
は、レイヤ パラメータとして指定できますinfogain_loss_param { source: "fiename" }
。形状として
計算する python スクリプトがあるとします(ここで、モデル内のラベルの数)。H
numpy.array
(L,L)
dtype='f4'
L
モデルにとして提供できるファイルに my
numpy.array
を変換するにはどうすればよいですか?binproto
infogain_loss_param { source }
H
損失レイヤーへの 3 番目の入力 (下) として (モデル パラメーターとしてではなく) 提供されたいとします。これどうやってするの?
「トップ」である新しいデータレイヤーを定義しますH
か? もしそうなら、トレーニングデータがインクリメントされるように、このレイヤーのデータはトレーニングの反復ごとにインクリメントされませんか? 複数の無関係な入力「データ」レイヤーを定義するにはどうすればよいですか、また、 「データ」レイヤーからH
はすべてのトレーニングプロセスで一度だけ読み取ることを知っているのに対し、カフェはトレーニング/テストの「データ」レイヤーバッチからバッチごとに読み取ることをどのように知っていますか?
python - Theano での Python 不足モジュール
ディープ ニューラル ネットワーク ライブラリである theano をインストールし、いくつかの例を実行しようとしていますが、スクリプトが一部のモジュールを見つけられないようです。パスを設定してみた
しかし、どちらも機能していません。このエラーが発生します。モジュールが theano /Library/Python/2.7/site-packages/theano/tensor/.. のサブディレクトリに正しくインストールされていることがわかりますが、どういうわけか python はモジュールを見つけられないようです
誰か助けてください。私はマックを使用しています。
artificial-intelligence - まれに発生するイベントのための教師なし深層人工ニューラル ネットワーク分類器
大規模なデータセットから高次の特徴を検出するために、教師なしの深層人工ニューラル ネットワークを構築してトレーニングしました。
データは毎日の気象測定値で構成されており、ディープ ネットの最後の層の出力は 4 ニューロン幅であり、うまくいけば高次の特徴を表します。ここで、非常にまれなイベント (竜巻など) の確率を検出したいと考えています。竜巻を引き起こしたデータポイントを選び出しましたが、データポイントについては非常に少ないです10,000 out of 5,000,000
。
- 10,000 個のデータ ポイントのみで構成されたトレーニング セットを作成し、
tornado
毎回 1 個の出力を希望しますか? - 5,000,000 個のデータ ポイントすべてで構成されるトレーニング セットを作成し、竜巻がない場合は目的の出力 0 を、竜巻がある場合は 1 を出力しますか? しかし、それはおそらく竜巻を予測することはできません.
- 他の解決策?