web-dev-qa-db-ja.com

非正規分布の信頼区間の計算

まず、統計に関する知識がかなり限られていることを明記する必要があります。私の質問が些細なことだと思われる場合や、おそらく意味がない場合は、ご容赦ください。

正規分布していないように見えるデータがあります。通常、信頼区間をプロットするときは、平均±2標準偏差を使用しますが、それは不均一な分布には受け入れられないと思います。私のサンプルサイズは現在1000サンプルに設定されています。これは、正規分布であるかどうかを判断するのに十分なようです。

私はすべての処理にMatlabを使用していますが、信頼区間(たとえば、95%)を簡単に計算できるMatlabの関数はありますか?

'quantile'関数と 'prctile'関数があることは知っていますが、それを使用する必要があるかどうかはわかりません。関数 'mle'は、正規分布データの信頼区間も返しますが、独自のpdfを提供することもできます。

Ksdensityを使用してデータのpdfを作成し、そのpdfをmle関数にフィードして、信頼区間を取得できますか?

また、データが正規分布しているかどうかをどのように判断しますか。現在、ksdensityからヒストグラムやpdfを見るだけでわかりますが、定量的に測定する方法はありますか?

ありがとう!

10
Josiah

信頼区間またはランダムデータの90%の範囲だけが必要ですか?

後者が必要な場合は、prctile()を使用することをお勧めします。たとえば、確率変数の独立した同一分布のサンプルを保持するベクトルがある場合、実行することでいくつかの有用な情報を取得できます。

y = prcntile(x, [5 50 95])

これにより、サンプルの90%が発生する範囲が[y(1)、y(3)]に返されます。そして、y(2)で、サンプルの中央値を取得します。

次の例を試してください(正規分布変数を使用)。

t = 0:99;
tt = repmat(t, 1000, 1);
x = randn(1000, 100) .* tt + tt;  % simple gaussian model with varying mean and variance
y = prctile(x, [5 50 95]);

plot(t,  y);
legend('5%','50%','95%')
1
nimrodm

したがって、そこにはいくつかの質問があります。ここにいくつかの提案があります

平均1000個のサンプルが正規分布する必要があるのは正しいです(データが「裾が重い」場合を除きますが、そうではないと思います)。平均の_1-alpha_-信頼区間(この場合は_alpha = 0.05_)を取得するには、「norminv」関数を使用できます。たとえば、データのサンプルXの平均に95%CIが必要だとすると、次のように入力できます。

_N = 1000;             % sample size
X = exprnd(3,N,1);    % sample from a non-normal distribution
mu = mean(X);         % sample mean (normally distributed)
sig = std(X)/sqrt(N); % sample standard deviation of the mean
alphao2 = .05/2;      % alpha over 2   
CI = [mu + norminv(alphao2)*sig ,...
      mu - norminv(alphao2)*sig  ]

CI =

2.9369    3.3126
_

データサンプルが正常に配布されているかどうかのテストは、さまざまな方法で実行できます。簡単な方法の1つは、QQプロットを使用することです。これを行うには、「qqplot(X)」を使用します。ここで、Xはデータサンプルです。結果がほぼ直線の場合、サンプルは正常です。結果が直線でない場合、サンプルは正常ではありません。

たとえば、上記のようにX = exprnd(3,1000,1)の場合、サンプルは非正規分布であり、qqplotは非常に非線形です。

_X = exprnd(3,1000,1);
qqplot(X);
_

alt text

一方、データが正常である場合、qqplotは直線を示します。

_qqplot(randn(1000,1))
_

alt text

10
MarkV

bootci 関数でブートストラップを使用することも検討してください。

2
Alex

[1]で提案されている方法を使用できます。

MEDIAN +/- 1.7(1.25R / 1.35SQN)

ここで、R =四分位範囲、SQN = Nの平方根

これは、非正規データの有用なデータ視覚化であるノッチ付き箱ひげ図でよく使用されます。 2つの中央値のノッチが重ならない場合、中央値は約95%の信頼水準でほぼ大幅に異なります。

[1] McGill、R.、J。W。Tukey、およびW. A.Larsen。 「箱ひげ図のバリエーション。」アメリカの統計学者。巻32、No。1、1978年、12〜16ページ。

2
Simon Schwab