カテゴリカルデータの分析では、ロジスティック回帰を使用して、二項結果と1つ以上の共変量との関係を推定することがよくあります。
これが一種の一般化線形モデル(GLM)であることを理解しています。 Rでは、これはglm
関数で引数family=binomial
を使用して実装されます。一方、カテゴリカルデータ分析は多項モデルです。これらはGLMではありませんか?また、glm
関数を使用してRで推定することはできませんか?
(この 多項ロジスティック回帰の投稿 。著者は外部パッケージmlogit
を使用していますが、これも古くなっているようです)
GLMのクラスが二分された結果に制限されるのはなぜですか?マルチクラス分類を複数のバイナリ分類モデルとして扱うことができるからですか?
RのGLMは、Fisher Scoringで推定されます。マルチカテゴリロジットへの2つのアプローチが思い浮かびます:比例オッズモデルと対数線形モデルまたは多項回帰。
比例オッズモデルは特別なタイプの累積リンクモデルであり、MASS
パッケージに実装されています。フィッシャーのスコアリングでは推定されないため、デフォルトのglm.fit
働き馬はそのようなモデルを推定することができません。ただし、興味深いことに、累積リンクモデルareGLMであり、McCulloghとNelderによって代名詞のテキストで議論されました。負の二項GLMでも同様の問題が見つかります。これらは、リンク関数の厳密な意味でのGLMであり、確率モデルですが、特殊な推定ルーチンが必要です。 R関数glm
に関する限り、それをすべてのタイプのGLMの完全な推定量と見なすべきではありません。
nnet
には、対数線形モデル推定器の実装があります。これは、同等の定式化であるソフトマックスエントロピーを使用した、より洗練されたニューラルネット推定器に適合しています(これを示す理論があります)。あなたが熱心であれば、デフォルトのRでglm
を使用して対数線形モデルを推定するcanことがわかります。重要なのは、ロジスティック回帰とポアソン回帰の間のリンクを見ることです。カウントモデル(対数相対率の差)の相互作用項を、結果(対数オッズ比)のロジスティックモデルの1次項として認識し、マージンを「調整」することで同じパラメーターと同じSEを推定できます。複数カテゴリの結果の$ K\times 2 $分割表の例。 その背景に関する関連するSEの質問はこちらです
MASSパッケージのVA肺がんデータを使用して、次の例を見てください。
> summary(multinom(cell ~ factor(treat), data=VA))
# weights: 12 (6 variable)
initial value 189.922327
iter 10 value 182.240520
final value 182.240516
converged
Call:
multinom(formula = cell ~ factor(treat), data = VA)
Coefficients:
(Intercept) factor(treat)2
2 6.931413e-01 -0.7985009
3 -5.108233e-01 0.4054654
4 -9.538147e-06 -0.5108138
Std. Errors:
(Intercept) factor(treat)2
2 0.3162274 0.4533822
3 0.4216358 0.5322897
4 0.3651485 0.5163978
Residual Deviance: 364.481
AIC: 376.481
に比べ:
> VA.tab <- table(VA[, c('cell', 'treat')])
> summary(glm(Freq ~ cell * treat, data=VA.tab, family=poisson))
Call:
glm(formula = Freq ~ cell * treat, family = poisson, data = VA.tab)
Deviance Residuals:
[1] 0 0 0 0 0 0 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.708e+00 2.582e-01 10.488 <2e-16 ***
cell2 6.931e-01 3.162e-01 2.192 0.0284 *
cell3 -5.108e-01 4.216e-01 -1.212 0.2257
cell4 -1.571e-15 3.651e-01 0.000 1.0000
treat2 2.877e-01 3.416e-01 0.842 0.3996
cell2:treat2 -7.985e-01 4.534e-01 -1.761 0.0782 .
cell3:treat2 4.055e-01 5.323e-01 0.762 0.4462
cell4:treat2 -5.108e-01 5.164e-01 -0.989 0.3226
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 1.5371e+01 on 7 degrees of freedom
Residual deviance: 4.4409e-15 on 0 degrees of freedom
AIC: 53.066
Number of Fisher Scoring iterations: 3
1つのモデルで扱うための相互作用パラメーターとメインレベルを2番目のモデルと比較します。切片も比較してください。 AICは異なります。対数線形モデルは、モデルの他のパラメーターによって条件付けられるテーブルのマージンに対する確率モデルであるためですが、予測と推論の観点から、これら2つのアプローチは同じ結果をもたらします。
要するに、トリックの質問です! glm
は、マルチカテゴリロジスティック回帰を処理します。そのようなモデルを構成するものをより深く理解するだけです。