多項モデルは、一般化線形モデルを使用して推定できますか？

Question

カテゴリカルデータの分析では、ロジスティック回帰を使用して、二項結果と1つ以上の共変量との関係を推定することがよくあります。

これが一種の一般化線形モデル（GLM）であることを理解しています。 Rでは、これはglm関数で引数family=binomialを使用して実装されます。一方、カテゴリカルデータ分析は多項モデルです。これらはGLMではありませんか？また、glm関数を使用してRで推定することはできませんか？

（この多項ロジスティック回帰の投稿。著者は外部パッケージmlogitを使用していますが、これも古くなっているようです）

GLMのクラスが二分された結果に制限されるのはなぜですか？マルチクラス分類を複数のバイナリ分類モデルとして扱うことができるからですか？

AdamO · Accepted Answer

RのGLMは、Fisher Scoringで推定されます。マルチカテゴリロジットへの2つのアプローチが思い浮かびます：比例オッズモデルと対数線形モデルまたは多項回帰。

比例オッズモデルは特別なタイプの累積リンクモデルであり、MASSパッケージに実装されています。フィッシャーのスコアリングでは推定されないため、デフォルトのglm.fit働き馬はそのようなモデルを推定することができません。ただし、興味深いことに、累積リンクモデルareGLMであり、McCulloghとNelderによって代名詞のテキストで議論されました。負の二項GLMでも同様の問題が見つかります。これらは、リンク関数の厳密な意味でのGLMであり、確率モデルですが、特殊な推定ルーチンが必要です。 R関数glmに関する限り、それをすべてのタイプのGLMの完全な推定量と見なすべきではありません。

nnetには、対数線形モデル推定器の実装があります。これは、同等の定式化であるソフトマックスエントロピーを使用した、より洗練されたニューラルネット推定器に適合しています（これを示す理論があります）。あなたが熱心であれば、デフォルトのRでglmを使用して対数線形モデルを推定するcanことがわかります。重要なのは、ロジスティック回帰とポアソン回帰の間のリンクを見ることです。カウントモデル（対数相対率の差）の相互作用項を、結果（対数オッズ比）のロジスティックモデルの1次項として認識し、マージンを「調整」することで同じパラメーターと同じSEを推定できます。複数カテゴリの結果の$ K imes 2 $分割表の例。その背景に関する関連するSEの質問はこちらです

MASSパッケージのVA肺がんデータを使用して、次の例を見てください。

> summary(multinom(cell ~ factor(treat), data=VA)) # weights: 12 (6 variable) initial value 189.922327 iter 10 value 182.240520 final value 182.240516 converged Call: multinom(formula = cell ~ factor(treat), data = VA) Coefficients: (Intercept) factor(treat)2 2 6.931413e-01 -0.7985009 3 -5.108233e-01 0.4054654 4 -9.538147e-06 -0.5108138 Std. Errors: (Intercept) factor(treat)2 2 0.3162274 0.4533822 3 0.4216358 0.5322897 4 0.3651485 0.5163978 Residual Deviance: 364.481 AIC: 376.481

に比べ：

> VA.tab <- table(VA[, c('cell', 'treat')]) > summary(glm(Freq ~ cell * treat, data=VA.tab, family=poisson)) Call: glm(formula = Freq ~ cell * treat, family = poisson, data = VA.tab) Deviance Residuals: [1] 0 0 0 0 0 0 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.708e+00 2.582e-01 10.488 <2e-16 *** cell2 6.931e-01 3.162e-01 2.192 0.0284 * cell3 -5.108e-01 4.216e-01 -1.212 0.2257 cell4 -1.571e-15 3.651e-01 0.000 1.0000 treat2 2.877e-01 3.416e-01 0.842 0.3996 cell2:treat2 -7.985e-01 4.534e-01 -1.761 0.0782 . cell3:treat2 4.055e-01 5.323e-01 0.762 0.4462 cell4:treat2 -5.108e-01 5.164e-01 -0.989 0.3226 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 1.5371e+01 on 7 degrees of freedom Residual deviance: 4.4409e-15 on 0 degrees of freedom AIC: 53.066 Number of Fisher Scoring iterations: 3

1つのモデルで扱うための相互作用パラメーターとメインレベルを2番目のモデルと比較します。切片も比較してください。 AICは異なります。対数線形モデルは、モデルの他のパラメーターによって条件付けられるテーブルのマージンに対する確率モデルであるためですが、予測と推論の観点から、これら2つのアプローチは同じ結果をもたらします。

要するに、トリックの質問です！ glmは、マルチカテゴリロジスティック回帰を処理します。そのようなモデルを構成するものをより深く理解するだけです。