web-dev-qa-db-ja.com

多項モデルは、一般化線形モデルを使用して推定できますか?

カテゴリカルデータの分析では、ロジスティック回帰を使用して、二項結果と1つ以上の共変量との関係を推定することがよくあります。

これが一種の一般化線形モデル(GLM)であることを理解しています。 Rでは、これはglm関数で引数family=binomialを使用して実装されます。一方、カテゴリカルデータ分析は多項モデルです。これらはGLMではありませんか?また、glm関数を使用してRで推定することはできませんか?

(この 多項ロジスティック回帰の投稿 。著者は外部パッケージmlogitを使用していますが、これも古くなっているようです)

GLMのクラスが二分された結果に制限されるのはなぜですか?マルチクラス分類を複数のバイナリ分類モデルとして扱うことができるからですか?

16
hxd1011

RのGLMは、Fisher Scoringで推定されます。マルチカテゴリロジットへの2つのアプローチが思い浮かびます:比例オッズモデルと対数線形モデルまたは多項回帰。

比例オッズモデルは特別なタイプの累積リンクモデルであり、MASSパッケージに実装されています。フィッシャーのスコアリングでは推定されないため、デフォルトのglm.fit働き馬はそのようなモデルを推定することができません。ただし、興味深いことに、累積リンクモデルareGLMであり、McCulloghとNelderによって代名詞のテキストで議論されました。負の二項GLMでも同様の問題が見つかります。これらは、リンク関数の厳密な意味でのGLMであり、確率モデルですが、特殊な推定ルーチンが必要です。 R関数glmに関する限り、それをすべてのタイプのGLMの完全な推定量と見なすべきではありません。

nnetには、対数線形モデル推定器の実装があります。これは、同等の定式化であるソフトマックスエントロピーを使用した、より洗練されたニューラルネット推定器に適合しています(これを示す理論があります)。あなたが熱心であれば、デフォルトのRでglmを使用して対数線形モデルを推定するcanことがわかります。重要なのは、ロジスティック回帰とポアソン回帰の間のリンクを見ることです。カウントモデル(対数相対率の差)の相互作用項を、結果(対数オッズ比)のロジスティックモデルの1次項として認識し、マージンを「調整」することで同じパラメーターと同じSEを推定できます。複数カテゴリの結果の$ K\times 2 $分割表の例。 その背景に関する関連するSEの質問はこちらです

MASSパッケージのVA肺がんデータを使用して、次の例を見てください。

> summary(multinom(cell ~ factor(treat), data=VA))
# weights:  12 (6 variable)
initial  value 189.922327 
iter  10 value 182.240520
final  value 182.240516 
converged
Call:
multinom(formula = cell ~ factor(treat), data = VA)

Coefficients:
    (Intercept) factor(treat)2
2  6.931413e-01     -0.7985009
3 -5.108233e-01      0.4054654
4 -9.538147e-06     -0.5108138

Std. Errors:
  (Intercept) factor(treat)2
2   0.3162274      0.4533822
3   0.4216358      0.5322897
4   0.3651485      0.5163978

Residual Deviance: 364.481 
AIC: 376.481 

に比べ:

> VA.tab <- table(VA[, c('cell', 'treat')])
> summary(glm(Freq ~ cell * treat, data=VA.tab, family=poisson))

Call:
glm(formula = Freq ~ cell * treat, family = poisson, data = VA.tab)

Deviance Residuals: 
[1]  0  0  0  0  0  0  0  0

Coefficients:
               Estimate Std. Error z value Pr(>|z|)    
(Intercept)   2.708e+00  2.582e-01  10.488   <2e-16 ***
cell2         6.931e-01  3.162e-01   2.192   0.0284 *  
cell3        -5.108e-01  4.216e-01  -1.212   0.2257    
cell4        -1.571e-15  3.651e-01   0.000   1.0000    
treat2        2.877e-01  3.416e-01   0.842   0.3996    
cell2:treat2 -7.985e-01  4.534e-01  -1.761   0.0782 .  
cell3:treat2  4.055e-01  5.323e-01   0.762   0.4462    
cell4:treat2 -5.108e-01  5.164e-01  -0.989   0.3226    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 1.5371e+01  on 7  degrees of freedom
Residual deviance: 4.4409e-15  on 0  degrees of freedom
AIC: 53.066

Number of Fisher Scoring iterations: 3

1つのモデルで扱うための相互作用パラメーターとメインレベルを2番目のモデルと比較します。切片も比較してください。 AICは異なります。対数線形モデルは、モデルの他のパラメーターによって条件付けられるテーブルのマージンに対する確率モデルであるためですが、予測と推論の観点から、これら2つのアプローチは同じ結果をもたらします。

要するに、トリックの質問です! glmは、マルチカテゴリロジスティック回帰を処理します。そのようなモデルを構成するものをより深く理解するだけです。

22
AdamO