web-dev-qa-db-ja.com

ログ損失の出力が1より大きい

詐欺分野の文書を二項分類するためのモデルをいくつか用意しました。すべてのモデルのログ損失を計算しました。基本的に予測の信頼性を測定しており、ログ損失は[0-1]の範囲にあるはずだと思いました。結果、つまりクラスの決定が評価目的に十分でない場合、それは分類の重要な尺度であると私は信じています。したがって、2つのモデルの適合率、再現率、適合率が非常に近いが、一方のモデルの対数損失関数が低い場合は、決定プロセスに他のパラメーター/メトリック(時間、コストなど)がないため、選択する必要があります。

デシジョンツリーのログ損失は1.57で、他のすべてのモデルでは0〜1の範囲です。このスコアをどのように解釈しますか?

15
OAK

ログ損失には上限がないことを覚えておくことが重要です。ログ損失は[0、∞)の範囲に存在します

Kaggle から、ログ損失の式を見つけることができます。

Log Loss

ここでyij 正しいクラスの場合は1、他のクラスの場合は0、pij そのクラスに割り当てられた確率です。

平均対数損失が1を超える場合を見ると、logpij)<-1iが真のクラスの場合。これは、その特定のクラスの予測確率がexp(-1)未満、または約0.368になることを意味します。したがって、モデルが実際のクラスに対して36%未満の確率推定しか提供しない場合、1より大きいログ損失が見られることが予想されます。

これは、さまざまな確率推定値を指定して対数損失をプロットすることでも確認できます。

Log Loss curve

32
David Maust