Xgboostのドキュメントで私は読んだ:
base_score [default = 0.5]:すべてのインスタンスの初期予測スコア、グローバルバイアス
このフレーズの意味は何ですか?基本スコアは、データセット内の対象イベントの事前確率ですか?つまり300のポジティブと700のネガティブの1,000観測のデータセットで、ベーススコアは0.3になりますか?
そうでない場合、それはどうなりますか?
あなたのアドバイスをいただければ幸いです。
あなたの理解は正しいと思います。この例では、ベーススコアを0.3に設定するか、単にデフォルトの0.5のままにすることができます。非常に不均衡なデータの場合、学習プロセスを改善するために、データをより意味のある基本スコアに初期化できます。理論的には、適切な学習率を選択し、トレーニングするのに十分なステップを与えている限り、開始ベーススコアは結果に影響を与えません。 この問題 で著者の答えを見てください。