単純ベイズを使用してwekaの分類結果をどのように解釈できますか?
平均、標準偏差、重量合計、精度はどのように計算されますか?
カッパ統計、平均絶対誤差、二乗平均平方根誤差などはどのように計算されますか?
混同マトリックスの解釈は何ですか?
以下は、10倍交差検定を使用した単純ベイズ分類器のサンプル出力です。そこには多くの情報があり、何に焦点を当てるべきかはアプリケーションによって異なります。始めるために、以下にいくつかの結果を説明します。
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 71 71 %
Incorrectly Classified Instances 29 29 %
Kappa statistic 0.3108
Mean absolute error 0.3333
Root mean squared error 0.4662
Relative absolute error 69.9453 %
Root relative squared error 95.5466 %
Total Number of Instances 100
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.967 0.692 0.686 0.967 0.803 0.709 0
0.308 0.033 0.857 0.308 0.453 0.708 1
Weighted Avg. 0.71 0.435 0.753 0.71 0.666 0.709
=== Confusion Matrix ===
a b <-- classified as
59 2 | a = 0
27 12 | b = 1
正しく分類されたインスタンスと誤って分類されたインスタンスは、正しく分類されたテストインスタンスと誤って分類されたテストインスタンスの割合を示します。生の数値は混同行列に示され、a
とb
はクラスラベルを表します。ここには100個のインスタンスがあったので、パーセンテージと生の数値を合計すると、aa
+ bb
= 59 + 12 = 71、ab
+ ba
= 27 + 2 = 29。
正しく分類されたインスタンスの割合は、しばしば精度またはサンプル精度と呼ばれます。パフォーマンスの推定としていくつかの欠点があります(偶然の修正ではなく、クラスの分布に敏感ではありません)。 ROC面積、またはROC曲線の下の面積は、私の好みの尺度です。
カッパは、分類と真のクラスとの間の一致の偶然修正された尺度です。これは、観測された合意から偶然に予想される合意を取り、可能な最大の合意で割ることによって計算されます。 0より大きい値は、分類器が偶然より優れていることを意味します(実際にそうすべきです!)。
エラー率は、分類ではなく数値予測に使用されます。数値予測では、予測は正しいか間違っているだけでなく、エラーには大きさがあり、これらの測定値はそれを反映しています。
うまくいけば、それがあなたを始めさせるでしょう。
Michaeltwofishの答えを詳しく説明するために、残りの値に関するいくつかのメモ:
TP Rate:真の陽性率(特定のクラスとして正しく分類されたインスタンス)
FPレート:誤検知の割合(特定のクラスとして誤って分類されたインスタンス)
Precision:真のクラスのインスタンスの割合を、そのクラスとして分類された合計インスタンスで割ったもの
Recall:特定のクラスとして分類されたインスタンスの割合をそのクラスの実際の合計で割った値(TPレートに相当)
F-Measure:2 * Precision * Recall /(Precision + Recall)として計算された、精度とリコールの組み合わせ測定
ROCの面積測定に関しては、これがWekaが出力する最も重要な値の1つであることにmichaeltwofishに同意します。 「最適な」分類器のROCエリア値は1に近づき、0.5は「ランダムな推測」に相当します(カッパ統計値0と同様)。
結果を解釈する際には、データセットの「バランス」を考慮する必要があることに注意してください。不均衡に大量のインスタンスが特定のクラスに属する不均衡なデータセットは、分類器が必ずしも特に優れているとは限らない場合でも、高い精度率につながる可能性があります。
参考文献:
この 説明 は、単純ベイズの意味を明確にするのに役立ちます。変数の独立性を前提としています。これを具体的にするために、ブルックリンのプロスペクトパークを誰かが歩いたかどうかを予測したいとします。私たちは彼らが
a)ニューヨーク市に住んでいる
b)都市に住んでいる
Naive Bayesは、これら2つの変数が独立していると仮定します。しかし、明らかに、彼らがNYCに住んでいる場合、彼らはa都市にも住んでいます。これは馬鹿げた例です。なぜなら、(願わくば)これらの変数でデータサイエンスを使用する人はいないでしょうが、独立性の意味を示しているからです。 aの場合、b。また、bではない場合、aではありません。
依存関係があるため、NaiveBayes 'naiveの仮定は成り立ちません。
このページ は初心者に役立つかもしれません。それは私を大いに助けています。通り抜ける
私はジェイソン・ブラウンリーと提携していません。彼は一種の売り上げのようですが、その利点は初心者をターゲットにしているのでシンプルに保つことです
一部のアルゴリズムでは「50050000」の各値が与えられますが、他の分類ではこれらの値は約49.7、87.4、98.2などです。