dplyr group_by＆summaryが正しく機能しないのはなぜですか？（plyrとの名前衝突）

Question

次のようなデータフレームがあります。

#df ID DRUG FED AUC0t Tmax Cmax 1 1 0 100 5 20 2 1 1 200 6 25 3 0 1 NA 2 30 4 0 0 150 6 65

アンスなど。薬物DRUGおよびFEDステータスFEDによるAUC、TmaxおよびCmaxの統計を要約します。 dplyrを使用します。例：AUCの場合：

CI90lo <- function(x) quantile(x, probs=0.05, na.rm=TRUE) CI90hi <- function(x) quantile(x, probs=0.95, na.rm=TRUE) summary <- df %>% group_by(DRUG,FED) %>% summarize(mean=mean(AUC0t, na.rm=TRUE), low = CI90lo(AUC0t), high= CI90hi(AUC0t), min=min(AUC0t, na.rm=TRUE), max=max(AUC0t,na.rm=TRUE), sd= sd(AUC0t, na.rm=TRUE))

ただし、出力はDRUGおよびFEDによってグループ化されません。 DRUGとFEDにファセットを使用しないことで、すべての統計を含む1行のみを提供します。

理由は何ですか？そして、どうすれば正しいことをすることができますか？

aosmith · Accepted Answer

plyrの後にdplyrを読み込んだと思います。これが、グループ化されたサマリーではなく全体的なサマリーを取得している理由です。

これはplyrが最後にロードされたときに起こります。

library(dplyr) library(plyr) df %>% group_by(DRUG,FED) %>% summarize(mean=mean(AUC0t, na.rm=TRUE), low = CI90lo(AUC0t), high= CI90hi(AUC0t), min=min(AUC0t, na.rm=TRUE), max=max(AUC0t,na.rm=TRUE), sd= sd(AUC0t, na.rm=TRUE)) mean low high min max sd 1 150 105 195 100 200 50

plyrを削除して再試行すると、グループ化された要約が表示されます。

detach(package:plyr) df %>% group_by(DRUG,FED) %>% summarize(mean=mean(AUC0t, na.rm=TRUE), low = CI90lo(AUC0t), high= CI90hi(AUC0t), min=min(AUC0t, na.rm=TRUE), max=max(AUC0t,na.rm=TRUE), sd= sd(AUC0t, na.rm=TRUE)) Source: local data frame [4 x 8] Groups: DRUG DRUG FED mean low high min max sd 1 0 0 150 150 150 150 150 NaN 2 0 1 NaN NA NA NA NA NaN 3 1 0 100 100 100 100 100 NaN 4 1 1 200 200 200 200 200 NaN

mmann1123 · Answer

一部の人々を助けるかもしれないaosmithの回答の変形。 dplyrの関数を直接呼び出すようRに指示します。あるパッケージが別のパッケージに干渉するときの良いトリック。

df %>% dplyr::group_by(DRUG,FED) %>% dplyr::summarize(mean=mean(AUC0t, na.rm=TRUE), low = CI90lo(AUC0t), high= CI90hi(AUC0t), min=min(AUC0t, na.rm=TRUE), max=max(AUC0t,na.rm=TRUE), sd= sd(AUC0t, na.rm=TRUE))

KFB · Answer

または、data.table

library(data.table) setDT(df) # set the data frame as data table df[, list(mean = mean(AUC0t, na.rm=TRUE), low = CI90lo(AUC0t), high = CI90hi(AUC0t), min = as.double(min(AUC0t, na.rm=TRUE)), max = as.double(max(AUC0t, na.rm=TRUE)), sd = sd(AUC0t, na.rm=TRUE)), by=list(DRUG, FED)] # DRUG FED mean low high min max sd # 1: 1 0 100 100 100 100 100 NA # 2: 1 1 200 200 200 200 200 NA # 3: 0 1 NaN NA NA Inf -Inf NA # 4: 0 0 150 150 150 150 150 NA # Warning messages: # 1: In min(AUC0t, na.rm = TRUE) : # no non-missing arguments to min; returning Inf # 2: In max(AUC0t, na.rm = TRUE) : # no non-missing arguments to max; returning -Inf

dplyr group_by＆summaryが正しく機能しないのはなぜですか？ （plyrとの名前衝突）

dplyr group_by＆summaryが正しく機能しないのはなぜですか？（plyrとの名前衝突）