人工知能と機械学習に関して、教師あり学習と教師なし学習の違いは何ですか?例で基本的な簡単な説明を提供できますか?
この非常に基本的な質問をするので、Machine Learning自体を指定する価値があるようです。
機械学習は、データ駆動型のアルゴリズムのクラスです。つまり、「通常の」アルゴリズムとは異なり、「良い答え」が何であるかを「伝える」データです。例:画像内の顔検出のための仮想の非機械学習アルゴリズムは、顔とは何かを定義しようとします(丸い肌のような色のディスク、目などが予想される暗い領域)。機械学習アルゴリズムには、このようなコード化された定義はありませんが、「例で学習」します。顔と顔ではない画像をいくつか表示し、最終的に学習して、見えないかどうかを予測できるようになります画像は顔です。
この特定の顔検出の例はsupervisedです。つまり、例はlabeledまたは明示的にどれが顔でどれがそうでないかを言ってください。
unsupervisedアルゴリズムでは、例はlabeledではありません。つまり、何も言いません。もちろん、そのような場合、アルゴリズム自体は顔が何であるかを「発明」することはできませんが、 cluster を別のグループ、たとえば顔は、馬とは非常に異なる風景とは非常に異なることがわかります。
別の答えがそれを言及しているので(しかし、間違った方法で):「中間」形式の監督があります。すなわち、semi-supervisedと能動学習。技術的には、これらはラベル付きの例の多くを避けるための「スマート」な方法がある監視された方法です。能動学習では、アルゴリズム自体がどのラベルを付けるかを決定します(たとえば、風景と馬についてはかなり確実ですが、ゴリラが本当に顔の絵かどうかを確認するように求められる場合があります)。半教師あり学習では、ラベルの付いた例から始めて、ラベルのない多数のデータについて考える方法を互いに「伝える」2つの異なるアルゴリズムがあります。この「議論」から彼らは学びます。
教師あり学習は、ロジックに意思決定をさせるために、アルゴリズムにフィードするデータが「タグ付き」または「ラベル付き」の場合です。
例:Bayesスパムフィルタリング。結果を絞り込むためにアイテムをスパムとしてフラグする必要があります。
教師なし学習は、生データ以外の外部入力なしで相関を見つけようとするアルゴリズムのタイプです。
例:データマイニングクラスタリングアルゴリズム。
トレーニングデータが、対応するターゲットベクトルと共に入力ベクトルの例を含むアプリケーションは、教師あり学習問題として知られています。
他のパターン認識問題では、トレーニングデータは、対応するターゲット値のない入力ベクトルxのセットで構成されます。このような教師なし学習の問題の目標は、クラスタリングと呼ばれるデータ内の同様の例のグループを発見することです。
パターン認識と機械学習(Bishop、2006)
教師あり学習では、入力x
に期待される結果y
(つまり、入力がx
のときにモデルが生成するはずの出力)が提供されます。これは、対応する入力の「クラス」(または「ラベル」) x
。
教師なし学習では、サンプルx
の「クラス」は提供されません。したがって、教師なし学習は、ラベルのないデータセットで「隠された構造」を見つけることと考えることができます。
教師あり学習へのアプローチには以下が含まれます
分類(1R、Naive Bayes、ID3 CARTなどの決定木学習アルゴリズムなど)
数値予測
教師なし学習へのアプローチには以下が含まれます
クラスタリング(K-means、階層的クラスタリング)
相関ルール学習
例を挙げることができます。
どの車両が車で、どの車両がオートバイであるかを認識する必要があるとします。
教師あり学習の場合、入力(トレーニング)データセットにラベルを付ける必要があります。つまり、入力(トレーニング)データセットの各入力要素に対して、それが車またはオートバイのどちらを表すかを指定する必要があります。 。
教師なし学習の場合、入力にラベルを付けません。教師なしモデルは、入力をクラスタ化して、たとえば同様の機能/プロパティ。したがって、この場合、「車」のようなラベルはありません。
たとえば、多くの場合、ニューラルネットワークのトレーニングは教師付き学習です。つまり、供給している特徴ベクトルに対応するクラスをネットワークに伝えています。
クラスタリングは教師なし学習です:共通のプロパティを共有するクラスにサンプルをグループ化する方法をアルゴリズムに決定させます。
教師なし学習のもう1つの例は、 Kohonenの自己組織化マップ です。
機械学習:データの学習と予測を行うことができるアルゴリズムの研究と構築を調査します。厳密に静的なプログラム命令に従うのではなく、出力として表されるデータ駆動型の予測または決定を行うため。
教師あり学習:これは、ラベル付きトレーニングデータから関数を推測する機械学習タスクです。トレーニングデータは、トレーニングサンプルのセットで構成されています。教師あり学習では、各例は入力オブジェクト(通常はベクトル)と目的の出力値(監視信号とも呼ばれます)で構成されるペアです。教師あり学習アルゴリズムがトレーニングデータを分析し、推論された関数を生成します。これは、新しい例をマッピングするために使用できます。
コンピューターには、「教師」によって与えられる入力例とその望ましい出力が提示され、目標は入力を出力にマッピングする一般的なルールを学習することです。具体的には、教師あり学習アルゴリズムは既知の入力データとデータに対する既知の応答(出力)のセット、および新しいデータへの応答の合理的な予測を生成するためのモデルのトレーニング
教師なし学習:それは教師なしの学習です。データで行うことができる基本的なことの1つは、データを視覚化することです。ラベルのないデータから隠された構造を記述する関数を推測する機械学習タスクです。学習者に与えられた例にはラベルが付いていないため、潜在的な解決策を評価するためのエラーや報酬のシグナルはありません。これにより、教師なし学習と教師なし学習が区別されます。教師なし学習では、パターンの自然なパーティションを見つけようとする手順を使用します。
教師なし学習では、予測結果に基づくフィードバックはありません、つまり、あなたを修正する教師はいません。教師なし学習方法では、ラベル付きの例は提供されず、出力中の出力の概念はありません学習過程。その結果、パターンを見つけるか、入力データのグループを発見するのは学習スキーム/モデル次第です
モデルをトレーニングするために大量のデータが必要な場合、および実験と探索を行う意欲と能力、そしてもちろん、より確立された方法では解決できない課題の場合は、教師なし学習方法を使用する必要があります。教師あり学習よりも大きくて複雑なモデルを学習することができます。 ここ はその良い例です
。
私は常に、教師なし学習と教師あり学習の区別がarbitrary意的で、少し混乱することを発見しました。 2つのケースの間に実際の区別はありませんが、代わりに、アルゴリズムが多少の「監督」を持つことができる状況の範囲があります。半教師あり学習の存在は、線がぼやけている明らかな例です。
監督は、どのソリューションが優先されるべきかについて、アルゴリズムにフィードバックを与えると考える傾向があります。スパム検出などの従来の監視された設定の場合、アルゴリズムに指示します"トレーニングセットを間違えないでください";クラスタリングなどの従来の監視なし設定の場合、アルゴリズムに指示します「互いに近いポイントは同じクラスター内にある必要があります」。たまたま、フィードバックの最初の形式は後者よりもはるかに具体的です。
要するに、誰かが「教師あり」と言うときは分類を考え、「教師なし」と言うときはクラスタリングを考え、それを超えてそれについてあまり心配しないようにしてください。
教師あり学習:さまざまなラベルのサンプルデータを入力として、正解とともに提供します。このアルゴリズムはそれから学習し、その後の入力に基づいて正しい結果の予測を開始します。 例:メールスパムフィルター
教師なし学習:ラベルや正解など、データを提供するだけで何も伝えません。アルゴリズムは、データ内のパターンを自動的に分析します。 例:Googleニュース
シンプルにしようと思います。
教師あり学習:この学習手法では、データセットが与えられ、システムはデータセットの正しい出力をすでに知っています。したがって、ここでは、システムが独自の値を予測することで学習します。次に、コスト関数を使用して精度のチェックを行い、予測が実際の出力にどれだけ近いかを確認します。
教師なし学習:このアプローチでは、結果がどうなるかについてほとんど、またはまったく知識がありません。その代わり、変数の影響がわからないデータから構造を導き出します。データ内の変数間の関係に基づいてデータをクラスタリングすることにより、構造を作成します。ここでは、予測に基づいたフィードバックはありません。
教師あり学習
この場合、ネットワークのトレーニングに使用されるすべての入力パターンは、ターゲットまたは目的のパターンである出力パターンに関連付けられます。ネットワークの計算された出力と正しい期待される出力の間で比較が行われ、エラーを判断する場合、教師は学習プロセス中にいると想定されます。このエラーを使用してネットワークパラメータを変更すると、パフォーマンスが向上します。
教師なし学習
この学習方法では、ターゲット出力はネットワークに提示されません。目的のパターンを提示する教師がいないかのように、システムは入力パターンの構造的特徴を発見して適応することにより、独自のパターンを学習します。
入力xとターゲット出力tがあります。そのため、欠落している部分に一般化するようにアルゴリズムをトレーニングします。ターゲットが与えられているため、監視されています。あなたはアルゴリズムを伝えるスーパーバイザーです:例xでは、t!を出力する必要があります。
通常、セグメンテーション、クラスタリング、および圧縮はこの方向でカウントされますが、それを適切に定義するのは困難です。
圧縮用の自動エンコーダ を例に取りましょう。入力xのみが与えられていますが、ターゲットもxであることをアルゴリズムに伝える方法は人間のエンジニアです。ある意味で、これは教師あり学習と違いはありません。
また、クラスタリングとセグメンテーションについて、機械学習の定義に本当に適合するかどうかはあまりわかりません( その他の質問 を参照)。
回答付きのデータが与えられると、教師あり学習
スパム/スパムではないというラベルの付いた電子メールがある場合、スパムフィルターを学習します。
糖尿病の有無を診断された患者のデータセットが与えられたら、新しい患者を糖尿病の有無に分類することを学びます。
教師なし学習、答えのないデータが与えられた場合、PCに物事をグループ化させます。
Webで見つかった一連のニュース記事を考えて、同じストーリーに関する記事のセットにグループ化します。
カスタムデータのデータベースがあれば、市場セグメントを自動的に検出し、顧客を異なる市場セグメントにグループ化します。
教師あり学習:子供が幼稚園に行くと言います。ここで、先生は彼に3つのおもちゃの家、ボール、車を見せます。今、先生は彼に10個のおもちゃを与えます。彼は以前の経験に基づいて、家、ボール、車の3つの箱にそれらを分類します。そのため、子供は最初にいくつかのセットで正しい答えを得るために教師によって監督されました。それから彼は未知のおもちゃでテストされました。
教師なし学習:再び幼稚園の例。子供には10個のおもちゃが与えられます。彼は同様のものをセグメント化するように言われます。したがって、形状、サイズ、色、機能などの機能に基づいて、A、B、Cと言う3つのグループを作成し、それらをグループ化しようとします。
Word Superviseとは、機械に監督/指示を与えて、答えを見つけやすくすることを意味します。指示を学習すると、新しいケースを簡単に予測できます。
監視なしとは、回答/ラベルを見つける方法を監督または指示する必要がないことを意味し、マシンはそのインテリジェンスを使用してデータのパターンを見つけます。ここでは予測を行いません。同様のデータを持つクラスターを見つけようとします。
教師あり学習:データにラベルを付けて、そこから学習する必要があります。例:住宅データと価格、そして価格の予測を学ぶ
教師なし学習:傾向を見つけて予測する必要があります。事前のラベルはありません。たとえば、クラスのさまざまな人が新しい人が来ると、この新しい学生はどのグループに属します。
教師あり学習とは、基本的に、学習中のデータを既に分類している単純な偶数の分類子を想定した、機械が学習する学習データに既にラベルを付ける手法です。したがって、「LABELLED」データを使用します。
それどころか、教師なし学習は、マシン自体がデータにラベルを付ける手法です。または、マシンがそれ自体でゼロから学習する場合も同様です。
Simple Supervised learningは、機械学習問題の一種で、いくつかのラベルがあり、そのラベルを使用して回帰や分類などのアルゴリズムを実装します。出力は0の形式のように分類が適用されます。または1、true/false、yes/no。そして、回帰は、価格の家のような実際の価値を出す場所に適用されます
教師なし学習は機械学習問題の一種で、ラベルがなく、いくつかのデータのみ、非構造化データがあり、さまざまな教師なしアルゴリズムを使用してデータをクラスター化する必要があります(データのグループ化)
簡単な言葉で.. :)それは私の理解です、修正してください。 教師あり学習は、提供されたデータに基づいて予測していることを知っています。そのため、データセットに述語が必要な列があります。 教師なし学習は、提供されたデータセットから意味を抽出しようとします。何を予測すべきか明確ではありません。質問は、なぜこれを行うのでしょうか?したがって、新しいデータを受け取った場合は、それを識別されたクラスター/グループに関連付け、その機能を理解します。
それがあなたのお役に立てば幸いです。
教師あり学習
教師あり学習とは、生の入力の出力を知っている場所です。つまり、機械学習モデルのトレーニング中に特定の出力で検出する必要があるものを理解し、トレーニング中にシステムをガイドするようにデータにラベルが付けられますそれに基づいて事前にラベル付けされたオブジェクトを検出すると、トレーニングで提供した同様のオブジェクトが検出されます。
ここで、アルゴリズムはデータの構造とパターンを認識します。教師あり学習は分類に使用されます
例として、形状が正方形、円形、三角形の異なるオブジェクトを持つことができます。ラベル付きデータセットにすべての形状がラベル付けされた同じタイプの形状を配置することがタスクであり、そのデータセットで機械学習モデルをトレーニングします。トレーニング日付セットに基づいて、形状の検出を開始します。
教師なし学習
教師なし学習は、最終結果が不明な非誘導学習であり、データセットをクラスター化し、オブジェクトの類似のプロパティに基づいて、オブジェクトを異なる束に分割し、オブジェクトを検出します。
ここで、アルゴリズムは生データ内の異なるパターンを検索し、それに基づいてデータをクラスター化します。教師なし学習はクラスタリングに使用されます。
例として、複数の形状の異なるオブジェクトを正方形、円形、三角形にすることができます。そのため、オブジェクトのプロパティに基づいて房を作ります。オブジェクトに4つの辺がある場合、正方形と見なし、3つの辺の三角形と円以外の側面がない場合、ここではデータにラベルが付けられていないため、さまざまな形状を検出することを学習します
教師あり学習では、トレーニング中の学習に基づいて、トレーニングされたラベルの1つに新しいアイテムをラベル付けできます。多数のトレーニングデータセット、検証データセット、テストデータセットを提供する必要があります。たとえば、ラベル付きのトレーニングデータと一緒に数字のピクセルイメージベクトルを指定すると、数字を識別できます。
教師なし学習では、トレーニングデータセットは必要ありません。教師なし学習では、入力ベクトルの違いに基づいてアイテムを異なるクラスターにグループ化できます。数字のピクセル画像ベクトルを提供し、10個のカテゴリに分類するように依頼すると、それが実行される場合があります。ただし、トレーニングラベルを提供していないため、ラベルの付け方はわかっています。
教師あり機械学習
「トレーニングデータセットから学習し、出力を予測するアルゴリズムのプロセス。」
トレーニングデータ(長さ)に正比例する予測出力の精度
教師あり学習では、入力変数(x)(トレーニングデータセット)と出力変数(Y)(テストデータセット)があり、アルゴリズムを使用して入力から出力へのマッピング関数を学習します。
Y = f(X)
主要なタイプ:
アルゴリズム:
分類アルゴリズム:
Neural Networks
Naïve Bayes classifiers
Fisher linear discriminant
KNN
Decision Tree
Super Vector Machines
予測アルゴリズム:
Nearest neighbor
Linear Regression,Multi Regression
適用分野:
音声認識
HRが特定の候補者を選択するかどうかを予測する
株式市場価格を予測する
教師あり学習/予測モデル:名前が示唆する予測モデルは、履歴データに基づいて将来の結果を予測するために使用されます。通常、予測モデルには、何を学習する必要があるか、どのように学習する必要があるかなど、最初から明確な指示が与えられます。これらのクラスの学習アルゴリズムは、教師あり学習と呼ばれます。
たとえば、マーケティング企業が解約する可能性のある顧客を見つけようとしているときに、教師あり学習が使用されます。また、総保険価値を決定する目的で、地震、竜巻などの危険の発生の可能性を予測するために使用できます。使用されるアルゴリズムの例は次のとおりです:最近傍、ナイーブベイズ、決定木、回帰など。
教師なし学習/記述モデル:これは、ターゲットが設定されておらず、他のものより重要な単一の特徴がない記述モデルをトレーニングするために使用されます。教師なし学習の場合は次のとおりです。小売業者が製品の組み合わせを調べたい場合、顧客はより頻繁に購入する傾向があります。さらに、製薬業界では、教師なし学習を使用して、どの疾患が糖尿病とともに発生する可能性が高いかを予測することができます。ここで使用されるアルゴリズムの例は次のとおりです。K-はクラスタリングアルゴリズムを意味します
教師あり学習では、基本的に入力変数(x)と出力変数(y)があり、アルゴリズムを使用して入力から出力へのマッピング関数を学習します。これを監視対象と呼ぶ理由は、アルゴリズムがトレーニングデータセットから学習し、アルゴリズムがトレーニングデータの予測を繰り返し行うためです。監視対象には、分類と回帰の2つのタイプがあります。分類は、出力変数がyes/no、true/falseなどのカテゴリの場合です。回帰は、出力が人の身長、体温などの実際の値である場合です。
UN教師あり学習では、入力データ(X)のみがあり、出力変数はありません。これは、教師なし学習と呼ばれます。これは、上記の教師あり学習とは異なり、正解がなく、教師もいないためです。アルゴリズムは、データ内の興味深い構造を発見して提示するために、独自の工夫に任されています。
教師なし学習のタイプは、クラスタリングと関連付けです。
教師あり学習:
教師あり学習アルゴリズムがトレーニングデータを分析し、推論された関数を生成します。これは、新しい例のマッピングに使用できます。
問題のカテゴリ:
回帰:連続出力内の結果を予測=>入力変数を連続関数にマップします。
例:
人の写真を与えて、彼の年齢を予測する
分類:離散出力の結果を予測する=>入力変数を離散カテゴリにマッピングする
例:
このチューマーはガンですか?
教師なし学習:
教師なし学習は、ラベル付け、分類、または分類されていないテストデータから学習します。教師なし学習は、データ内の共通点を識別し、新しいデータの各部分におけるそのような共通点の有無に基づいて対応します。
データ内の変数間の関係に基づいてデータをクラスタリングすることにより、この構造を導き出すことができます。
予測結果に基づくフィードバックはありません。
問題のカテゴリ:
クラスタリング:は、同じオブジェクトが同じようにオブジェクトのセットをグループ化するタスクですグループ(クラスターと呼ばれる)は、他のグループ(クラスター)のグループよりも(ある意味では)互いに類似しています。
例:
1,000,000個の異なる遺伝子のコレクションを取得し、これらの遺伝子を、寿命、場所、役割などの異なる変数によって何らかの形で類似または関連するグループに自動的にグループ化する方法を見つけます。
一般的な使用例はここにリストされています。
参照:
機械学習は、人間の行動を模倣する機械を作成しようとしている分野です。
赤ちゃんのように機械を訓練します。人間が学習し、特徴を特定し、パターンを認識し、自分自身を訓練する方法。マシンアルゴリズムは、データ内のパターンを識別し、特定のカテゴリに分類します。
機械学習は、教師あり学習と教師なし学習の2つのカテゴリに大きく分けられます。
教師あり学習とは、対応する目標値(出力)を持つ入力ベクトル/データがある概念です。一方、教師なし学習とは、対応する目標値がない入力ベクトル/データのみを持つ概念です。
教師あり学習の例は、対応する数字[0-9]の数字のイメージがある手書き数字認識です。教師なし学習の例は、購買行動によって顧客をグループ化することです。
教師あり学習では、入力と出力がどうあるべきかを知っています。たとえば、車のセットを考えます。赤と青を見つける必要があります。
一方、教師なし学習は、出力がどのようにあるべきかについてほとんど、またはまったく考えずに答えを見つけなければならない場所です。たとえば、学習者は、顔のパターンと「あなたは何について笑っていますか?」などの言葉の相関関係に基づいて、人々が笑っているときを検出するモデルを構築できる場合があります。
違いを詳細に説明する多くの回答がすでにあります。 codeacademy でこれらのgifを見つけたので、違いを効果的に説明するのに役立ちます。
トレーニング画像にはここにラベルがあり、モデルは画像の名前を学習していることに注意してください。