ナイーブベイズについてナイーブとは何ですか?
実際には非常に良い例があります Wikipedia :
簡単に言えば、単純ベイズ分類器は、クラス変数が与えられた場合、クラスの特定の機能の存在(または不在)が他の機能の存在(または不在)と無関係であると想定します。たとえば、果物はAppleで、赤くて丸く、直径が約4インチの場合)と見なされます。これらの機能が相互に依存している場合や、他の機能に依存している場合でも素朴なベイズ分類器は、これらの特性をすべて考慮して、この果物がアップルである確率に独立して寄与していると考えています。
基本的には、それが正しいことが判明するかどうかわからない仮定を行うため、「素朴」です。
データが特徴ベクトルX = {x1、x2、... x10}で構成され、クラスラベルがY = {y1、y2、.. y5}である場合。したがって、ベイズ分類器は、正しいクラスラベルを次の式を最大化するものとして識別します。
P(y/X) = P(X/y) * P(y) = P(x1,x2, ... x10/ y) * P(y)
だから、それはまだナイーブではありません。ただし、P(x1、x2、... x10/Y)を計算するのは難しいので、機能は独立していると仮定します。これは単純な仮定と呼ばれるものなので、代わりに次の式になります
P(y/X) = P(x1/y) * P(x2/y) * ... P(x10/y) * P(y)
これは、すべての属性が互いに独立していることを前提としているため、単純と呼ばれています。この仮定は、多くの現実世界の状況ではこれが当てはまらないため、素朴と呼ばれる理由です。これにもかかわらず、分類子は多くの現実世界の状況で非常にうまく機能し、ニュートラルネットワークやSVMのパフォーマンスに匹敵します(すべてではありません)。
共同分布を見つけた場合の分類の問題は、トレーニングデータをミラーリングするだけで、計算が非常に難しいことです。したがって、より有効に一般化できるものが必要です。
単純モデルは、各属性が他の属性とは無関係に分散されることを強く一般化しています。
これは、属性間の依存関係をあまり気にしない場合に非常に役立ちます。
ここでは、ナイーブベイズ分類器の実用的な説明の優れたドキュメントを共有しています。これにより、非常に優れたアイデアが得られます。