web-dev-qa-db-ja.com

R式y〜1はどういう意味ですか?

私は R Formula のドキュメントを読んでいて、 depmix(depmixS4パッケージから) を使用する方法を理解しようとしました。

現在、depmixS4のドキュメントでは、サンプルの数式は_y ~ 1_のようになる傾向があります。 _y ~ x_のような単純なケースでは、入力xと出力yの間の関係を定義しているので、_y = a * x + b_に似ています。ここで、aは勾配、bは切片です。

_y ~ 1_に戻ると、数式が原因です。 _y = 1_(y = 1の水平線)と同等ですか?

ビットコンテキストを追加するには、depmixs4のドキュメントを見ると、以下の1つの例があります。

depmix(list(rt~1,corr~1),data=speed,nstates=2,family=list(gaussian(),multinomial()))

一般的に、_~ 1_で終わる式は私を混乱させると思います。 _~ 1_または_y ~ 1_の意味を説明できますか?本当にありがとう!

38
Antony

Rのモデル式(アスタリスク、プラス、キャレット)で使用される演算子の多くはモデル固有の意味を持ち、これはその1つです。「1」の記号は切片を示します。

つまり、独立変数がゼロまたは影響がない場合に、従属変数に期待される値です。 (モデル用語のより一般的な数学的意味を使用するには、それらをI()でラップします)。インターセプトは通常想定されているため、インターセプトなしでモデルを明示的に示す場合に最もよく見られます。

X上のyの線形回帰モデルに同じモデルを指定する2つの方法を次に示します。最初の項には暗黙的な切片項があり、2番目の項には明示的な項があります。

_y ~ x
y ~ 1 + x
_

以下は、原点を介して(つまり、切片項なしで)xのyの線形回帰を与える方法です。

_y ~ 0 + x
y ~ -1 + x
y ~ x - 1
_

あなたが言及する特定のケースでは(y〜1)、yは他の変数によって予測されないため、Paul Hiemstraが述べたように、自然な予測はyの平均です。

_> data(city)
> r <- lm(x~1, data=city)
> r

Call:
lm(formula = x ~ 1, data = city)

Coefficients:
(Intercept)  
       97.3  

> mean(city$x)
[1] 97.3
_

そして、_-1_でインターセプトを削除すると、何も残りません。

_> r <- lm(x ~ -1, data=city)
> r

Call:
lm(formula = x ~ -1, data = city)

No coefficients
_

formula()はオブジェクトから数式を抽出するための関数であり、そのヘルプファイルはRでのモデル数式の指定について読むのに最適な場所ではありません。 thisを参照することをお勧めします説明 または第11章 An Introduction to R

40
MattBagg

モデルが_y ~ x1 + x2_の形式の場合、これは(大まかに言えば)次のことを表します。

_ y = β0 + β1(x1) + β2(x2)

 Which is of course the same as 
 y = β0(1) + β1(x1) + β2(x2)
_

上記の式には暗黙の_+1_があります。したがって、実際には、上記の式は_y ~ 1 + x1 + x2_です。

Yが他の変数に依存しない、非常に単純な式を使用できます。これはあなたが参照している数式、_y ~ 1_であり、おおよそ

_ y = β0(1) = β0
_

@Paulが指摘するように、単純なモデルを解くと、β0 = mean (y)が得られます




ここに例があります

_  # Let's make a small sample data frame
  dat <- data.frame(y= (-2):3, x=3:8)

  # Create the linear model as above
  simpleModel <- lm(y ~ 1, data=dat)

  ## COMPARE THE COEFFICIENTS OF THE MODEL TO THE MEAN(y)
  simpleModel$coef
    # (Intercept) 
    #         0.5 

  mean(dat$y)
    # [1] 0.5
_
17
Ricardo Saporta

一般に、このような式は、従属変数と独立変数の間の関係を線形モデルの形で記述します。左側は従属変数、右側は独立変数です。独立変数は線形モデルのトレンド成分を計算するために使用され、残差はある種の分布を持っていると仮定されます。独立者が1つの場合~ 1、トレンドコンポーネントは単一の値です。データの平均値、つまり線形モデルには切片のみがあります。

5
Paul Hiemstra