rpartのディシジョンツリーを使用したデータ予測

Question

Rを使用して、次のように構造化されたデータを含む「d」というデータフレームを分類しています。

initial dataset

データには576666行があり、列「classLabel」には3つのレベルの係数があります：ONE、TWO、THREE。

私はrpartを使用して決定木を作成しています：

fitTree = rpart(d$classLabel ~ d$tripduration + d$from_station_id + d$gender + d$birthday)

そして、newdataの「classLabel」の値を予測したいと思います。

newdata = data.frame( tripduration=c(345,244,543,311), from_station_id=c(60,28,100,56), gender=c("Male","Female","Male","Male"), birthday=c(1972,1955,1964,1967) ) p <- predict(fitTree, newdata)

私の結果は、それぞれがnewdataの "classLabel"の3つの可能な値の確率を持つ4行の行列になると予想しています。しかし、pの結果として得られるのは、次のような576666行のデータフレームです。

enter image description here

predict関数を実行すると、次の警告も表示されます。

Warning message: 'newdata' had 4 rows but variables found have 576666 rows

どこが間違っているの？

Yimihua · Accepted Answer

問題は次のとおりです。予測コードに「type = 'class'」を追加する必要があります。

 predict(fitTree,newdata,type="class")

次のコードを試してください。この例では、「iris」データセットを使用します。

 > data(iris) > head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa # model fitting > fitTree<-rpart(Species~Sepal.Length+Sepal.Width+Petal.Length+Petal.Width,iris) #prediction-one row data > newdata<-data.frame(Sepal.Length=7,Sepal.Width=4,Petal.Length=6,Petal.Width=2) > newdata Sepal.Length Sepal.Width Petal.Length Petal.Width 1 7 4 6 2 # perform prediction > predict(fitTree, newdata,type="class") 1 virginica Levels: setosa versicolor virginica #prediction-multiple-row data > newdata2<-data.frame(Sepal.Length=c(7,8,6,5), + Sepal.Width=c(4,3,2,4), + Petal.Length=c(6,3.4,5.6,6.3), + Petal.Width=c(2,3,4,2.3)) > newdata2 Sepal.Length Sepal.Width Petal.Length Petal.Width 1 7 4 6.0 2.0 2 8 3 3.4 3.0 3 6 2 5.6 4.0 4 5 4 6.3 2.3 # perform prediction > predict(fitTree,newdata2,type="class") 1 2 3 4 virginica virginica virginica virginica Levels: setosa versicolor virginica