this Sebastian Thrumのビデオでは、教師あり学習は「ラベル付き」データで動作し、教師なし学習は「ラベルなし」データで動作すると述べています。これはどういう意味ですか? 「ラベル付きデータとラベルなしデータ」をグーグルで検索すると、このトピックに関する多数の学術論文が返されます。基本的な違いを知りたいだけです。
通常、ラベルなしデータは、世界から比較的簡単に入手できる自然または人間が作成したアーティファクトのサンプルで構成されます。ラベル付けされていないデータの例には、写真、音声記録、ビデオ、ニュース記事、ツイート、X線(医療アプリケーションで作業している場合)などが含まれます。ラベル付けされていないデータごとに「説明」はありません。データのみが含まれ、他には何もありません。
ラベル付きデータは通常、ラベルのないデータのセットを取得し、そのラベルのないデータの各部分を何らかの意味のある「タグ」、「ラベル」または「クラス」で補強します。たとえば、上記の種類のラベル付けされていないデータのラベルは、この写真に馬または牛が含まれているかどうか、この音声録音で発話された単語、このビデオで実行されているアクションの種類、このニュース記事のトピックなどですこのツイートの全体的な感情は、X線のドットが腫瘍であるかどうかなどです。
多くの場合、データのラベルは、ラベルのないデータの特定の部分について判断するように人間に依頼することで取得されます(例:「この写真には馬や牛が含まれていますか?」)。
ラベル付きデータセットを取得した後、機械学習モデルをデータに適用して、新しいラベルなしデータをモデルに提示し、そのラベルなしデータの可能性のあるラベルを推測または予測できます。
ラベル付けされていないデータとラベル付けされたデータを統合して、世界のより正確で正確なモデルを構築することを目的とした機械学習の研究には、多くの活発な分野があります。半教師あり学習は、ラベルなしデータとラベル付きデータ(または、より一般的には、一部のデータポイントのみがラベルを持つラベルなしデータのセット)を統合モデルに結合しようとします。ディープニューラルネットワークと特徴学習は、ラベルのないデータのみのモデルを構築し、ラベルの情報をモデルの興味深い部分に適用しようとする研究分野です。
機械学習にはさまざまな問題があるので、分類を適切なケースとして選択します。分類では、ラベル付きデータは通常、多次元特徴ベクトル(通常Xと呼ばれる)のバッグと、各ベクトルのラベルYで構成されます。ラベルYは、カテゴリに対応する単なる整数です。 (face = 1、non-face = -1)。ラベルのないデータはYコンポーネントを逃します。ラベル付けされていないデータが豊富にあり、簡単に入手できる多くのシナリオがありますが、ラベル付けされたデータには多くの場合、注釈を付けるために人間/専門家が必要です。
ラベル付きデータ、によって使用される教師あり学習意味のある追加tagsまたはlabelsまたはclassを観測値(または行)に追加します。これらのタグは、観察から得たり、データについて人々や専門家に尋ねたりすることができます。
ClassificationおよびRegressionは、教師あり学習のラベル付きデータセットに適用できます。
ラベル付きデータに機械学習モデルを適用して、新しいラベルなしデータをモデルに提示し、可能性のあるラベルを推測または予測できます。
ラベルなしデータ、教師なし学習で使用されますが、それに関連する意味のあるタグやラベルはありません。 教師なし学習には、教師付き学習よりも困難なアルゴリズムがあります。これは、データまたは予想される結果に関する情報がほとんどまたはまったくわからないためです。
クラスタリングは、データポイント、または何らかの形で類似しているオブジェクトをグループ化するために使用される最も人気のある教師なし機械学習手法の1つと見なされます。
教師なし学習では、モデルが少なくなり、モデルの結果が正確であることを保証するために使用できる評価方法が少なくなります。そのため、機械が私たちのために成果を生み出しているため、教師なし学習は制御しにくい環境を作り出します。
Coursera:Pythonによる機械学習 の好意による写真