python - Tensorflow / Deepmind: 証明に関連する数学アルゴリズムの観測からアクションを実行するにはどうすればよいですか?

Question

この質問は、 https ://github.com/deepmind/labまたはPython のhttps://www.tensorflow.org/の deepmind オープンソースライブラリの使用に関する指示/提案/ヘルプを求めるものです。

私は深層学習や AI などの概念に慣れていないことを考慮してください。

質問は次のとおりです。

値を観察してアクションを実行する必要がある数学の問題に Deepmind または Tensorflow を使用する例はありますか?

このページ ( https://deepmind.com/blog/open-sourcing-deepmind-lab/ ) で説明されているものと同様のアプローチを使用して、観察、行動、報酬などに基づいて、いくつかの値の中から選択する学習エージェント。私はこのようなことを考えていました：

入力: タプルのリストのリスト (リストは各ステップで変更されます)
アクション: 入力から値を取得します (経験に基づく)
報酬: 返された値が、実装している残りのアルゴリズムにとって良いか悪いかである場合、ディープラーニングエージェントに報酬を与えます。

その他の注意事項：

事前にアルゴリズムをトレーニングすることはできません

入力は次のようなものです（数字のみ）：

edge: (1, 2), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (0, 1), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (5, 4), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (6, 7), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (3, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (4, 1), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (8, 5), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (3, 8), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (2, 3), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (5, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (0, 5), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (1, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (9, 6), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (0, 3), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (7, 9), face_down: 3, face_up: 5, face_left: 5, face_right: 5

アイデアは、deepmind がゲームをプレイするために使用するのと同じアプローチを使用することですが、ピクセルを分析してパッド (上、下、左、右、発射、ジャンプ) を使用する代わりに、学習エージェントにいくつかの数学値を分析させ、唯一のアクションとして、それらのいずれかを選択します。

このような問題に対処するための他のアプローチやライブラリ/フレームワークはありますか?

python - Tensorflow / Deepmind: 証明に関連する数学アルゴリズムの観測からアクションを実行するにはどうすればよいですか?

1 に答える 1

Related

Reference