machine-learning - 単純なパーセプトロンモデルと XOR

Question

ここでしか質問しなくてすみません。私も質問に答えられるように勉強頑張ります！

多くの論文や記事では、MLP のアクティベーション関数の選択に制限はないと主張しています。

与えられた条件にどれが最も適しているかだけが問題のようです。

また、単純なパーセプトロンでは XOR 問題を解決できないことが数学的に証明されているとも書かれています。

活性化関数にステップ関数を使用していた単純なパーセプトロンモデルを知っています。

しかし、基本的にどのアクティベーション関数を使用しても問題ない場合は、

f(x)=1 if |x-a|<b 
f(x)=0 if |x-a|>b

活性化関数は XOR 問題で機能します。(2入力1出力の隠れ層パーセプトロンモデルの場合)

人為的な関数を使用することは、モデルの学習に適していないことを知っています。しかし、とにかく機能するのであれば、なぜ機能しないことが証明されていると記事が言っているのでしょうか?

この記事は、ステップ関数を使用した単純なパーセプトロンモデルを意味しますか? それとも、単純なパーセプトロンの活性化関数は MLP とは異なり、ステップ関数でなければなりませんか? または私は間違っていますか？

score 1 · Accepted Answer

bgbg が述べたように、アクティベーションは微分できません。MLP が勾配を計算して重みを更新するために必要な微分可能な活性化関数を使用する場合、パーセプトロンは単純に直線をフィッティングするだけであり、非線形 XOR 問題を直観的に解くことはできません。

machine-learning - 単純なパーセプトロン モデルと XOR