Kaggleの競争のためにsklearnでXgboost実装を使用しています。ただし、この「警告」メッセージが表示されます。
$ python Script1.py /home/sky/private/virtualenv15.0.1dev/myVE/local/lib/python2.7/site-packages/sklearn/cross_validation.py:516:
警告:yで最も人口の少ないクラスには、メンバーが1つしかないため、メンバーが少なすぎます。クラスのラベルの最小数は、n_folds = 3以上にする必要があります。 %(min_labels、self.n_folds))、警告)
Stackoverflowに関する別の質問によると、「k == 3でStratifiedKFold交差検定を実行できるように、クラスごとに少なくとも3つのサンプルがあることを確認してください(これは、GridSearchCVが分類に使用するデフォルトのCVだと思います)。」
そしてまあ、私はクラスごとに少なくとも3つのサンプルを持っていません。
だから私の質問は:
a)代替案は何ですか?
b)なぜ相互検証を使用できないのですか?
c)代わりに何を使用できますか?
...
param_test1 = {
'max_depth': range(3, 10, 2),
'min_child_weight': range(1, 6, 2)
}
grid_search = GridSearchCV(
estimator=
XGBClassifier(
learning_rate=0.1,
n_estimators=3000,
max_depth=15,
min_child_weight=1,
gamma=0,
subsample=0.8,
colsample_bytree=0.8,
objective='multi:softmax',
nthread=42,
scale_pos_weight=1,
seed=27),
param_grid=param_test1, scoring='roc_auc', n_jobs=42, iid=False, cv=None, verbose=1)
...
grid_search.fit(train_x, place_id)
参照:
サンプルが1つしかないターゲット/クラスがある場合、どのモデルにも少なすぎます。ほとんどのモデルはバランスの取れたセットでより適切に動作するため、できることは、できればできるだけバランスの取れた別のデータセットを取得することです。
別のデータセットを持つことができない場合は、持っているもので遊ぶ必要があります。孤独なターゲットを持つサンプルを削除することをお勧めします。したがって、そのターゲットをカバーしないモデルが作成されます。それが要件に合わない場合は、新しいデータセットが必要です。