Andrew Ngのビデオを何度も見ましたが、勾配降下法を問題に適用する方法がわかりません。
彼は、高レベルの概念説明の領域だけを扱っていますが、私が必要としているのは、基本レベルの戦術的洞察です。
私の入力は、次の形式の特徴ベクトルです。
例:
Document 1 = ["I", "am", "awesome"]
Document 2 = ["I", "am", "great", "great"]
辞書は次のとおりです。
["I", "am", "awesome", "great"]
したがって、ベクトルとしてのドキュメントは次のようになります。
Document 1 = [1, 1, 1, 0]
Document 2 = [1, 1, 0, 2]
私が見たものによると、勾配降下のアルゴリズムは次のようになります。
私の現在の理解では、α は学習率、x (i)は特徴であり、上の例でDocument 2
は x (3) =2 です。
y (i)はラベルです。私の場合Document
、特定の特徴ベクトルに関連付けられた を予測しようとしているため、たとえば y (0)は に関連付けられDocument 1
、y (1)はに関連付けられDocument 2
ます。
潜在的に多くのドキュメント (10 としましょう) があるため、y (0)に関連付けられた 5 つのドキュメントと y (1)に関連付けられた 5 つのドキュメントを持つことができますm = 10
。
私がよく理解していない最初のことは、Θ 0と Θ 1の役割は何ですか?
パーセプトロン アルゴリズムと同様に、それらは重み値であると思います。固有の値に関係なく、関連付けられているラベルの値を出力するように機能を誘導するために、それらを機能の値に適用します。 . あれは正しいですか?それで、私は Θ 値をパーセプトロンの重み値と同一視してきましたが、これは正確ですか?
さらに、私たちが勾配をとっているものを理解していません。丘の上を歩くことについて別の高レベルの説明を聞くことは本当に気にしません。実際には、上で詳しく説明した状況について、勾配をどのように取っているのでしょうか。後続の 2 つの反復での重みは? 機能の価値とそれが本当のラベルですか?
ご検討いただきありがとうございます。どんな洞察でも大歓迎です。