データマイニングにおける分類とクラスタ化の違いは何かを誰かが説明できますか?
可能であれば、主なアイデアを理解するために両方の例を挙げてください。
一般に、分類では一連の定義済みクラスがあり、新しいオブジェクトがどのクラスに属するのかを知りたいと思います。
クラスタリングは、一連のオブジェクトをグループ化し、オブジェクト間に何らかの関係があるかどうかを調べます。
機械学習のコンテキストでは、分類は 教師あり学習 、クラスタリングは 教師なし学習です。 ) 。
この質問をデータマイニングまたは機械学習の担当者に依頼した場合、彼らはクラスタリングと分類の違いを説明するために教師あり学習と教師なし学習という用語を使用します。教師なし。
教師あり学習:あなたはかごを持っていて、それは新鮮な果物でいっぱいになっていて、あなたの仕事は一箇所に同じ種類の果物を配置することです。果物はリンゴ、バナナ、チェリー、そしてブドウであるとします。それで、あなたはすでにあなたの前の仕事から、それがそれぞれの、そしてすべての果物の形であることを知っているので、一箇所に同じ種類の果物を配置するのは簡単です。ここであなたの前の仕事はデータマイニングで訓練されたデータと呼ばれます。だからあなたはすでにあなたの訓練されたデータから物事を学んでいます。これはあなたがある果物がそうでありそしてそう特徴を持っていればそれがグレープであるとあなたに言う応答変数を持っているからです。
この種のデータは、学習済みデータから取得されます。この種の学習は、教師あり学習と呼ばれます。このタイプ解決問題は分類の下に来ます。だから、あなたはすでに自信を持って仕事をすることができるように物事を学びます。
教師なし:あなたがバスケットを持っていて、それに新鮮な果物がいっぱい入っていて、あなたの仕事は同じ場所に同じ種類の果物を一箇所に配置することです。
今回あなたはその果物について何も知らない、あなたはこれらの果物を初めて見るのですから、どうやって同じ種類の果物をアレンジしますか。
あなたが最初にすることはあなたが果物を摂取することです、そしてあなたはその特定の果物のどんな物理的な性格も選ぶでしょう。色を取ったとします。
その後、色に基づいてそれらを配置します、そしてグループはこのようなものになります。 RED COLOR GROUP:りんご&チェリーフルーツ。 グリーンカラーグループ:バナナ&ブドウ。だから今あなたはサイズとして別の物理的な文字を取りますので、今グループはこのようなものになります。 赤い色と大きなサイズ:アップル。 赤い色と小さなサイズ:チェリーフルーツ。 緑の色と大きなサイズ:バナナ。 緑色と小サイズ:ぶどう。仕事はハッピーエンドを終えた。
ここでは、これまで何も学ばなかったので、列車データも応答変数もありません。この種の学習は教師なし学習として知られています。クラスタリングは教師なし学習の下に来ます。
+分類:あなたはいくつかの新しいデータを与えられます、あなたはそれらのために新しいラベルを設定しなければなりません。
たとえば、ある会社が見込み客を分類したいとします。新しい顧客が来るとき、彼らはこれが彼らの製品を買おうとしている顧客であるかどうかを決定しなければなりません。
+クラスタリング:誰が何を買ったのかを記録した一連の履歴トランザクションが与えられます。
クラスタリング手法を使用すると、顧客のセグメンテーションを見分けることができます。
私はあなたの多くが機械学習について聞いたことがあると確信しています。あなたの十数人はそれが何であるかさえ知っているかもしれません。そして、あなたの何人かは機械学習アルゴリズムでも働いたかもしれません。これがどこへ向かっているのかわかりますか? 5年後には絶対に欠かせないテクノロジに精通している人は多くありません。 Siriは機械学習です。 AmazonのAlexaは機械学習です。広告およびショッピング商品推薦システムは機械学習です。 2歳の男の子の単純な例えを使って機械学習を理解しよう。ただ楽しみのために、彼をKylo Renと呼びましょう。
Kylo Renが象を見たとしましょう。彼の脳は彼に何を伝えますか?(彼がVaderの後継者であっても、彼は最低限の思考能力を持っていることを忘れないでください)。彼の脳は彼が色が灰色だった大きな動く生物を見たことを彼に告げるでしょう。彼は次に猫を見ます、そして彼の脳はそれが色が金色である小さい動く生き物であることを彼に告げます。最後に、彼は次に軽いサーベルを見ます、そして、彼の脳はそれが彼が一緒に遊ぶことができる生きていない物であると彼に告げます!
この時点で彼の脳は、サーベルはゾウやネコとは異なることを知っています。サーベルは一緒に遊ぶべきものであり、自力では動かないからです。たとえKyloが可動性が何を意味するのかわからなくても、彼の脳はこれを理解することができます。この単純な現象はクラスタリングと呼ばれます。
機械学習は、このプロセスの数学版に他なりません。統計学を研究する多くの人々は、彼らがいくつかの方程式が脳が働くのと同じように働くようにできることに気づいた。脳は似たような物をまとめることができ、脳は間違いから学ぶことができ、脳は物事を識別することを学ぶことができます。
これらすべては統計で表すことができ、このプロセスのコンピュータベースのシミュレーションは機械学習と呼ばれます。なぜコンピュータベースのシミュレーションが必要なのですか?なぜなら、コンピュータは人間の頭脳よりも重い数学を速くできるからです。私は機械学習の数学的/統計的な部分に入りたいと思いますが、最初にいくつかの概念を明らかにせずにそれに飛び込むことはしたくないでしょう。
Kylo Renに戻りましょう。 Kyloがサーベルを拾い上げてプレーし始めるとしましょう。彼は誤ってストームトルーパーを襲い、ストームトルーパーは怪我をします。彼は何が起こっているのか理解しておらず、遊び続けています。次に彼は猫にぶつかり、猫はけがをします。今度はKyloは彼が悪いことをしたと確信しており、そして幾分注意するように試みる。しかし、彼の悪いサーベルスキルを考えると、彼は象にぶつかり、彼が問題を抱えていることを絶対に確信しています。彼はその後非常に慎重になり、我々がForce Awakensで見たように故意に彼のお父さんにぶつかるだけです!
あなたの過ちから学ぶこのプロセス全体は、何か間違ったことをしているという感覚がエラーやコストによって表される方程式で模倣することができます。サーベルとは関係ないことを特定するこのプロセスは、分類と呼ばれます。クラスタリングと分類は、機械学習の絶対的な基本です。それらの違いを見てみましょう。
彼の脳は、ライトサーベルが自力で動くことができず、したがって、異なると決定したので、Kyloは動物とライトサーベルを区別しました。決定は存在する目的(データ)のみに基づいており、外部からの支援や助言は提供されませんでした。これとは対照的に、Kyloは、最初にオブジェクトを打つことができることを観察することによって、ライトサーベルに注意することの重要性を区別しました。決定は完全にサーベルに基づいているのではなく、それが異なるオブジェクトに何ができるかに基づいていました。一言で言えば、ここでいくつかの助けがありました。
この学習の違いのため、クラスタリングは教師なし学習法と呼ばれ、分類は教師つき学習法と呼ばれます。それらは機械学習の世界では非常に異なっており、しばしば存在するデータの種類によって左右されます。ラベル付けされたデータ(または、Kyloの場合はストームトルーパー、ゾウ、ネコのように私たちが学ぶのに役立つもの)を入手することは、しばしば容易ではなく、区別されるデータが大きい場合は非常に複雑になります。一方、ラベルなしで学習すると、ラベルのタイトルが何であるかわからないなど、それ自体が欠点になる可能性があります。例や助けを借りずにサーベルに気を配ることをKyloが学んだとしたら、彼はそれが何をするのかわからないでしょう。彼はそれが行われることになっていないことをただ知っているでしょう。これは一種の不完全な類推ですが、あなたは要点を得ます!
私たちは機械学習を始めたばかりです。分類自体は、連続番号の分類またはラベルの分類です。たとえば、Kyloが各ストームトルーパーの身長を分類する必要がある場合、高さが5.0、5.01、5.011などになる可能性があるため、多くの回答が得られます。非常に限られた答えしかないでしょう。事実上、それらは単純な数字で表すことができます。赤は0、青は1、緑は2です。
基本的な数学を知っていれば、0、1、2、5.1、5、0、1、5、011はそれぞれ異なり、それぞれ離散数と連続数と呼ばれます。離散数の分類はロジスティック回帰と呼ばれ、連続数の分類は回帰と呼ばれます。ロジスティック回帰はカテゴリカル分類としても知られているので、この用語を他の場所で読むときに混同しないでください。
これは機械学習の非常に基本的な紹介でした。次の記事では統計的側面に立ち入ります。修正が必要な場合はお知らせください。
第二部掲載 こちら 。
例からのlearningに基づいて、定義済みクラスから新しい観測値への割り当てです。
それは機械学習における重要な課題の一つです。
「教師なし分類」として一般的に棄却されていますが、まったく異なります。
多くの機械学習者があなたに教えるものとは対照的に、それはオブジェクトに「クラス」を割り当てることについてではなく、それらを事前定義されていないことについてです。これはあまりにも多くの分類をした人々の非常に限られた見解です。 ハンマー(分類器)を持っている場合、すべてはあなたにとって釘(分類問題)のように見えますの典型的な例です。しかし、それは分類の人々がクラスタリングのハングを得ない理由でもあります。
代わりに、それを構造検出と見なしてください。クラスタリングのタスクは、あなたが以前に知らなかった構造(たとえばグループ)をデータ内で見つけることです。クラスタリングは成功しましたifあなたは何か新しいことを学びました。あなたがあなたがすでに知っている構造を手に入れただけなら、それは失敗しました。
クラスタ分析は、データマイニング(および機械学習における醜いアヒルの子です。そのため、クラスタリングを却下する機械学習者には耳を傾けないでください)の重要なタスクです。
これは文献の前後で繰り返されてきましたが、教師なし学習はb llsh tです。それは存在しませんが、それは「軍事情報」のようなオキシモロンです。
アルゴリズムは例から学習するか(それから「教師あり学習」です)、または学習しません。すべてのクラスタリング方法が「学習」である場合、データセットの最小値、最大値、および平均値を計算することも、「教師なし学習」です。それからどんな計算でもその出力を「学習」しました。したがって、「教師なし学習」という用語はまったく意味がありません。これはすべてを意味するもので、何もしないという意味です。
ただし、「教師なし学習」アルゴリズムの中には、最適化カテゴリに分類されるものもあります。たとえば、k-means is最小二乗最適化。そのような方法はすべて統計的なものなので、「教師なし学習」と分類する必要はないと思いますが、代わりに「最適化問題」と呼ぶべきです。より正確で、そしてより意味があります。最適化を含まない、そして機械学習パラダイムにうまく適合しないクラスタリングアルゴリズムはたくさんあります。それで、「教師なし学習」という傘下でそれらを絞るのはやめてください。
クラスタリングに関連する「学習」がいくつかありますが、学習するのはプログラムではありません。自分のデータセットについて新しいことを学ぶことになっているのはユーザーです。
私はデータマイニングの新参者ですが、私の教科書が言っているように、CLASSICIATIONは教師つき学習、そしてCLUSTERINGは教師なし学習であるべきです。教師あり学習と教師なし学習の違いは、 こちら にあります。
クラスタリングにより、抽出したクラスターの数、形状、その他のプロパティなど、必要なプロパティを使用してデータをグループ化できます。一方、分類では、グループの数と形は固定されています。大部分のクラスタリングアルゴリズムは、パラメータとしてクラスタの数を与える。ただし、適切な数のクラスターを見つけるにはいくつかの方法があります。
まず第一に、私はこの答えの前に多くの答えのように言うでしょう、分類は教師つき学習であり、クラスタリングは教師なしです。これの意味は:
分類はラベル付けされたデータを必要とするので分類子はこのデータで訓練されることができ、その後彼が知っていることに基づいて新しい目に見えないデータを分類し始める。クラスタリングのような教師なし学習ではラベル付きデータは使用されず、実際に行われるのはグループのようなデータ内の固有の構造を見つけることです。
両方の手法の間のもう1つの違い(前の手法に関連する)は、分類が、出力がカテゴリカル従属変数である離散回帰問題の一種であるという事実です。一方、クラスタリングの出力はグループと呼ばれるサブセットのセットを生成します。これら2つのモデルを評価する方法も同じ理由で異なります。分類では、精度と再現率をチェックしなければならないこと、オーバーフィットやアンダーフィットなどのことがよくあります。しかし、クラスタリングでは通常、自分が見つけたものを解釈するためのビジョンとエキスパートが必要です。なぜなら、自分が持っている構造の種類(グループまたはクラスタの種類)がわからないからです。そのため、クラスタリングは探索的データ分析に属しています。
最後に、私はアプリケーションが両者の主な違いであると言うでしょう。単語が言うように、分類はクラスまたは別のもの、例えば男性や女性、猫や犬などに属するインスタンスを区別するために使われます。クラスタリングはしばしば医学的疾患の診断、パターンの発見に使われます。等.
それが役に立てば幸い!!!
Mahout in Actionの本から、そして私はそれがその違いを非常によく説明していると思う:
分類アルゴリズムは、k-meansアルゴリズムなどのクラスタリングアルゴリズムに関連していますが、それらとはまったく異なります。
分類アルゴリズムは、クラスタリングアルゴリズムで発生する教師なし学習とは対照的に、教師つき学習の一種です。
監視付き学習アルゴリズムは、目標変数の望ましい値を含む例を示したものです。教師なしアルゴリズムは望ましい答えを与えられませんが、代わりに自分でもっともらしいものを見つけなければなりません。
Classification - カテゴリカルクラスラベルの予測 - トレーニングセットとクラスラベル属性の値(クラスラベル)に基づいてデータを分類(モデルを構築)します - 新しいデータの分類にモデルを使用します
クラスタ:データオブジェクトの集合 - 同じクラスタ内で互いに類似している - 他のクラスタ内のオブジェクトと類似していない
クラスタリングは、データ内のグループを見つけることを目的としています。 「クラスター」は直感的な概念であり、数学的に厳密な定義はありません。 1つのクラスターのメンバーは互いに似ていて、他のクラスターのメンバーと似ていないはずです。クラスタリングアルゴリズムは、ラベルなしデータセットZを操作し、その上にパーティションを作成します。
クラスとクラスラベルの場合、classには類似したオブジェクトが含まれますが、異なるクラスのオブジェクトには違いがあります。明確な意味を持つクラスもありますが、最も単純な場合は相互に排他的です。たとえば、署名の検証では、署名は本物か偽造のどちらかです。真のクラスは、私たちが特定のシグネチャの観察から正しく推測することができないかもしれないということに関係なく、2つのうちの1つです。
機械学習またはAIは、実行/達成するタスクによって大きく認識されます。
私の意見では、彼らが達成するタスクの概念でクラスタリングと分類について考えることによって、実際に両者の違いを理解するのを助けることができます。
クラスタリングはものをグループ化することであり、分類はものを分類することです。
あなたが、男性全員がスーツを着ていて、女性がガウンを着ているパーティーホールにいるとしましょう。
さて、あなたはあなたの友人にいくつかの質問をします:
Q1:ちょっと、グループの人々を助けてもらえますか?
あなたの友人が与えることができる可能な答えは以下のとおりです。
1:彼は性別、男性または女性に基づいて人々をグループ化できます
2:彼は自分の服に基づいて人々をグループ化することができます、1着ているスーツ他の着ているガウン
3:髪の毛の色に基づいて人々をグループ化できます
4:年齢層などに基づいて人々をグループ化することができます。
彼らはあなたの友人がこの仕事を完了することができる多くの方法です。
もちろん、あなたは彼の意思決定プロセスに影響を与えることができます。
性別(または年齢層、髪の色や服装など)に基づいてこれらの人々をグループ化するのを手伝ってもらえますか
Q2:
第2四半期より前に、いくつかの事前作業を行う必要があります。
あなたは彼が情報に基づいた決断を下せるようにあなたの友人に教えるか知らせる必要があります。それで、あなたがあなたの友人にこう言ったとしましょう:
髪の長い人は女性です。
短い髪の人は男性です。
Q2。さて、あなたは長い髪の人を指摘し、あなたの友人に尋ねます - それは男性ですか、それとも女性ですか?
あなたが期待できる唯一の答えは、女性です。
もちろん、パーティーには長髪の男性と短髪の女性がいる可能性があります。しかし、答えはあなたがあなたの友人に提供した学習に基づいて正しいです。この2つを区別する方法について友達にもっと教えることで、プロセスをさらに改善することができます。
上記の例では、
Q1はクラスタリングが達成するタスクを表します
クラスタリングでは、データ(人)をアルゴリズム(あなたの友達)に渡し、データをグループ化するように依頼します。
さて、グループ化するための最良の方法は何であるかを決めるのはアルゴリズム次第ですか? (性別、色または年齢層)。
繰り返しますが、追加の入力を提供することで、アルゴリズムによる決定に間違いなく影響を与えることができます。
Q2は分類が達成するタスクを表します
そこで、あなたは自分のアルゴリズム(あなたの友人)に、トレーニングデータと呼ばれるいくつかのデータ(People)を与え、そしてどのデータがどのラベル(男性または女性)に対応するかを彼に知らせました。次に、テストデータと呼ばれる特定のデータを自分のアルゴリズムで参照し、それが男性か女性かを判断します。あなたの教えがより良いほど、それはより良い予測です。
そして、第2四半期の事前作業または分類は、識別方法を学習できるようにモデルをトレーニングすることに他なりません。クラスタリングまたはQ1では、この事前作業はグループ化の一部です。
これが誰かに役立つことを願っています。
ありがとう
1つの分類用ライナー:
定義済みカテゴリへのデータの分類
クラスタリングのための1つのライナー:
データを一連のカテゴリにグループ化する
主な違い:
分類はデータを取得し、それを事前に定義されたカテゴリに分類することであり、データをグループ化するカテゴリのセットをクラスタ化することは、事前にはわかりません。
結論:
私はあなたがここで見つけることができる同じトピックについての長い記事を書きました:
クラスタリングは、類似した機能を持つオブジェクトがまとまり、異なる機能を持つオブジェクトがばらばらになるようにオブジェクトをグループ化する方法です。これは、機械学習やデータマイニングで使用される統計データ分析のための一般的な手法です。
分類とは、トレーニングセットのデータに基づいてオブジェクトを認識、区別、および理解するという分類プロセスです。分類は、トレーニングセットと正しく定義された観測値が利用可能な教師あり学習のテクニックです。
分類:予測結果が離散出力になる=>入力変数を離散カテゴリにマッピングする
一般的なユースケース:
電子メールの分類:スパムか非スパムか
顧客への制裁融資:彼が制裁融資額に対してEMIを支払うことができる場合は可能です。できない場合はいいえ
癌腫よう細胞の同定それは重要かそれとも重要でないか
つぶやきの感情分析:つぶやきはポジティブかネガティブかニュートラルか
ニュースの分類:ニュースを事前定義されたクラス(政治、スポーツ、健康など)に分類します。
クラスタリング:同じグループ内のオブジェクト(クラスタと呼ばれる)がより類似するようにオブジェクトのセットをグループ化するタスク他のグループ(クラスタ)の人々に対するよりも、お互いに対して)
一般的なユースケース:
マーケティング:マーケティング目的で顧客セグメントを発見する
生物学:植物と動物の異なる種の間の分類
図書館:トピックと情報に基づいて異なる本をクラスタリングする
保険:顧客、その方針を認識し、不正を特定する
都市計画:住宅のグループを作り、それらの地理的な場所やその他の要因に基づいてその価値を検討します。
地震研究:危険な地域を特定する
おすすめシステム :
参考文献:
分類とクラスタ化の主な違いは次のとおりです。分類は、クラスラベルを使用してデータを分類するプロセスです。一方、クラスタリングは分類と似ていますが、事前定義されたクラスラベルはありません。分類は教師つき学習と連動しています。反対に、クラスタリングは教師なし学習としても知られています。トレーニングサンプルは分類方法で提供されますが、クラスタリングの場合はトレーニングデータは提供されません。
これが役立つことを願っています!
あなたが(日付またはファイルの他の指定に基づいて)あなたの棚に大量のシートをファイルしようとしているならば、あなたは分類しています。
シートのセットからクラスタを作成するとしたら、それはシートの間に似たようなものがあることを意味します。
データマイニングには「監視あり」と「監視なし」の2つの定義があります。コンピュータ、アルゴリズム、コードなどに、これはAppleのようなもので、オレンジのようなものであると伝えると、教師付き学習と教師付き学習(データセット内の各サンプルのタグなど)を使って分類します。データ、分類を得るでしょう。しかし、その一方で、コンピュータに指定されたデータセットの特徴を識別させ、データセットを分類するために教師なしで学習させる場合、これをクラスタリングと呼びます。この場合、アルゴリズムに供給されるデータはタグを持たず、アルゴリズムは異なるクラスを見つけるはずです。