人工知能と機械学習の観点から、教師あり学習と教師なし学習の違いは何ですか?例を挙げて、基本的で簡単な説明を提供できますか?
28 に答える
この非常に基本的な質問をするので、機械学習自体が何であるかを指定する価値があるようです。
機械学習は、データ駆動型のアルゴリズムのクラスです。つまり、「通常の」アルゴリズムとは異なり、「良い答え」が何であるかを「伝える」のはデータです。例: 画像内の顔検出のための仮想的な非機械学習アルゴリズムは、顔が何であるかを定義しようとします (丸い肌のような色のディスク、目があると思われる暗い領域など)。機械学習アルゴリズムにはそのようなコード化された定義はありませんが、「例によって学習」します。顔と顔以外の画像をいくつか表示すると、優れたアルゴリズムは最終的に学習し、目に見えないかどうかを予測できます。画像は顔です。
この特定の顔検出の例は監視対象です。つまり、例にというラベルを付けるか、どれが顔でどれがそうでないかを明示的に示す必要があります。
教師なしアルゴリズムでは、サンプルはラベル付けされません。つまり、何も言いません。もちろん、そのような場合、アルゴリズム自体は顔が何であるかを「発明」することはできませんが、データをさまざまなグループに分類しようとすることはできます。たとえば、顔が馬とは大きく異なる風景と大きく異なることを区別できます。
別の答えがそれについて言及しているので(ただし、間違った方法で):「中間」形式の監督、つまり半監督ありおよび能動学習があります。技術的には、これらは監視された方法であり、多数のラベル付きの例を回避するための「スマートな」方法があります。アクティブ ラーニングでは、アルゴリズム自体がラベルを付ける必要があるものを決定します (たとえば、風景や馬についてはかなり確実ですが、ゴリラが本当に顔の写真であるかどうかを確認するように求められる場合があります)。半教師あり学習では、2 つの異なるアルゴリズムがあり、ラベル付けされたサンプルから開始し、多数のラベル付けされていないデータについて考える方法を互いに「伝え」ます。この「議論」から彼らは学びます。
教師あり学習とは、アルゴリズムにフィードするデータが「タグ付け」または「ラベル付け」されており、ロジックが決定を下すのに役立つ場合です。
例: ベイズ スパム フィルタリング。結果を絞り込むためにアイテムにスパムのフラグを立てる必要があります。
教師なし学習は、生データ以外の外部入力なしで相関関係を見つけようとするアルゴリズムの一種です。
例: データ マイニング クラスタリング アルゴリズム。
教師あり学習
トレーニング データが入力ベクトルの例とそれに対応するターゲット ベクトルを含むアプリケーションは、教師あり学習問題として知られています。
教師なし学習
他のパターン認識問題では、トレーニング データは入力ベクトル x のセットで構成され、対応するターゲット値はありません。このような教師なし学習の問題の目標は、データ内の類似した例のグループを発見することであり、これをクラスタリングと呼びます
パターン認識と機械学習 (ビショップ、2006)
教師あり学習ではx
、期待される結果y
(つまり、入力が の場合にモデルが生成するはずの出力) が入力に提供されます。x
これは、対応する入力の「クラス」(または「ラベル」) と呼ばれることがよくありますx
。
教師なし学習では、例の「クラス」はx
提供されません。したがって、教師なし学習は、ラベルのないデータセットで「隠れた構造」を見つけることと考えることができます。
教師あり学習へのアプローチには、次のようなものがあります。
分類 (1R、単純ベイズ、ID3 CART などの決定木学習アルゴリズムなど)
数値予測
教師なし学習へのアプローチには、次のようなものがあります。
クラスタリング (K-means、階層的クラスタリング)
アソシエーション ルールの学習
例を挙げることができます。
どの車両が自動車で、どの車両がオートバイかを認識する必要があるとします。
教師あり学習の場合、入力 (トレーニング) データセットにラベルを付ける必要があります。つまり、入力 (トレーニング) データセットの入力要素ごとに、それが自動車またはオートバイのどちらを表しているかを指定する必要があります。
教師なし学習の場合、入力にラベルを付けません。教師なしモデルは、入力を類似の特徴/特性などに基づいてクラスターにクラスター化します。したがって、この場合、「車」などのラベルはありません。
たとえば、ニューラル ネットワークのトレーニングは教師あり学習であることが非常に多く、フィードしている特徴ベクトルに対応するクラスをネットワークに伝えます。
クラスタリングは教師なし学習です。サンプルを共通のプロパティを共有するクラスにグループ化する方法をアルゴリズムに決定させます。
教師なし学習のもう 1 つの例は、Kohonen の自己組織化マップです。
私はいつも、教師なし学習と教師あり学習の違いが恣意的で少し混乱していることに気付きました。2 つのケースの間に実際の違いはありません。代わりに、アルゴリズムが多かれ少なかれ「監視」できる状況の範囲があります。半教師あり学習の存在は、明確な境界線が曖昧な例です。
私は監視を、どのソリューションを優先すべきかについてアルゴリズムにフィードバックを与えるものと考える傾向があります。スパム検出などの従来の教師付き設定では、アルゴリズムに「トレーニング セットで間違いを犯さないでください」と指示します。クラスタリングなどの従来の教師なし設定の場合、アルゴリズムに「互いに近いポイントは同じクラスターにある必要があります」と指示します。たまたま、最初の形式のフィードバックは後者よりもはるかに具体的です。
要するに、誰かが「教師あり」と言うときは分類を考え、「教師なし」と言うときはクラスタリングを考え、それ以上はあまり気にしないようにします。
教師あり学習: さまざまなラベルが付けられたサンプル データを入力として与え、正解も示します。このアルゴリズムはそれから学習し、その後の入力に基づいて正しい結果の予測を開始します。例:迷惑メールフィルター
教師なし学習: データを与えるだけで、ラベルや正解などは何も伝えません。アルゴリズムは、データ内のパターンを自動的に分析します。例: Google ニュース
機械学習: データから学習して予測を行うことができるアルゴリズムの研究と構築を探求します。このようなアルゴリズムは、厳密に静的に従うのではなく、出力として表されるデータ駆動型の予測または決定を行うために、入力例からモデルを構築することによって動作します。プログラムの指示。
教師あり学習: ラベル付けされたトレーニング データから関数を推測する機械学習タスクです。トレーニング データは一連のトレーニング例で構成されます。教師あり学習では、各例は、入力オブジェクト (通常はベクトル) と目的の出力値 (監視信号とも呼ばれます) で構成されるペアです。教師あり学習アルゴリズムがトレーニング データを分析し、新しい例のマッピングに使用できる推論関数を生成します。
コンピューターには、「教師」によって与えられたサンプル入力とそれらの望ましい出力が提示されます。目標は、入力を出力にマッピングする一般的なルールを学習することです。具体的には、教師あり学習アルゴリズムは、入力データと既知の応答の既知のセットを取りますデータ (出力) に変換し、モデルをトレーニングして、新しいデータへの応答の妥当な予測を生成します。
教師なし学習: 教師なしで学習 することです。データを使って行う基本的なことの 1 つは、データを視覚化することです。これは、ラベルのないデータから隠れた構造を記述する関数を推測する機械学習タスクです。学習者に与えられた例はラベル付けされていないため、潜在的な解決策を評価するためのエラーや報酬信号はありません。これにより、教師なし学習と教師あり学習が区別されます。教師なし学習は、パターンの自然な分割を見つけようとする手順を使用します。
教師なし学習では、予測結果に基づくフィードバックはありません。つまり、あなたを修正する教師はいません。教師なし学習方法では、ラベル付けされた例は提供されず、学習プロセス中に出力の概念はありません。その結果、パターンを見つけたり、入力データのグループを発見したりするのは、学習スキーム/モデル次第です。
モデルをトレーニングするために大量のデータが必要な場合、および実験と探索の意欲と能力が必要な場合、およびもちろん、より確立された方法ではうまく解決できない課題がある場合は、教師なし学習方法を使用する必要があります。教師あり学習よりも大規模で複雑なモデルを学習できます。ここに良い例があります
.
教師あり学習: データにラベルを付けており、そこから学習する必要があります。たとえば、家のデータと価格を一緒に調べてから、価格を予測することを学びます
教師なし学習: 傾向を見つけてから予測する必要があり、事前にラベルを付ける必要はありません。たとえば、クラスのさまざまな人がいて、新しい人が来た場合、この新しい生徒はどのグループに属していますか。
教師あり学習では、トレーニング中の学習に基づいて、トレーニング済みラベルの 1 つに新しいアイテムをラベル付けできます。多数のトレーニング データ セット、検証データ セット、およびテスト データ セットを提供する必要があります。たとえば、数字のピクセル画像ベクトルとラベル付きのトレーニング データを提供すると、数字を識別できます。
教師なし学習では、トレーニング データセットは必要ありません。教師なし学習では、入力ベクトルの違いに基づいてアイテムを異なるクラスターにグループ化できます。数字のピクセル画像ベクトルを提供し、10 のカテゴリに分類するように依頼すると、それが行われる可能性があります。ただし、トレーニング ラベルを提供していないため、ラベル付けの方法を認識しています。
教師あり学習:
教師あり学習アルゴリズムがトレーニング データを分析し、新しい例のマッピングに使用できる推論関数を生成します。
- トレーニングデータを提供し、特定の入力に対する正しい出力を知っています
- インプットとアウトプットの関係を知っている
問題のカテゴリ:
回帰: 連続出力内の結果を予測 => 入力変数を何らかの連続関数にマップします。
例:
与えられた人物の写真から年齢を予測する
分類:離散出力で結果を予測 => 入力変数を離散カテゴリにマッピング
例:
この腫瘍は癌ですか?
教師なし学習:
教師なし学習は、ラベル付け、分類、または分類されていないテスト データから学習します。教師なし学習は、データの共通点を特定し、新しいデータごとにそのような共通点の有無に基づいて反応します。
この構造は、データ内の変数間の関係に基づいてデータをクラスタリングすることで導き出すことができます。
予測結果に基づくフィードバックはありません。
問題のカテゴリ:
クラスタリング:同じグループ (クラスターと呼ばれる) 内のオブジェクトが、他のグループ (クラスター) 内のオブジェクトよりも (ある意味で) 互いに類似するように、一連のオブジェクトをグループ化するタスクです。
例:
1,000,000 の異なる遺伝子のコレクションを取得し、これらの遺伝子を何らかの形で似ているか、寿命、場所、役割などのさまざまな変数によって関連しているグループに自動的にグループ化する方法を見つけます。
一般的な使用例をここにリストします。
参考文献:
教師あり学習は基本的に、入力変数 (x) と出力変数 (y) があり、アルゴリズムを使用して入力から出力へのマッピング関数を学習する場所です。これを教師付きと呼んだ理由は、アルゴリズムがトレーニング データセットから学習し、アルゴリズムがトレーニング データに対して反復的に予測を行うためです。教師ありには、分類と回帰の 2 つのタイプがあります。分類は、出力変数が yes/no、true/false のようなカテゴリである場合です。回帰とは、出力が人の身長や気温などの実際の値である場合です。
UN 教師あり学習は、入力データ (X) のみがあり、出力変数がない場合です。上記の教師あり学習とは異なり、正解がなく、教師もいないため、教師なし学習と呼ばれます。アルゴリズムは、データ内の興味深い構造を発見して提示する独自の工夫に任されています。
教師なし学習の種類は、クラスタリングとアソシエーションです。