web-dev-qa-db-ja.com

信頼区間、信頼レベル、簡単なテストの確率

簡単な問題のようですが、わかりません

新しい機能を実装するポイントがあるかどうかを知りたいとしましょう。機能に集中する必要があるかどうか。ユーザーに質問するなど、なんらかのテストが不可能であるとしましょう。その機能は、たとえば「プレミアムアカウントを支払っているユーザーのためのeコマース用ウェブカメラ」のように、簡単です。

具体的には、プレミアムユーザーが1500人います。 「機能は、少なくとも75%のクライアントが使用するときに使用されます」と言えます。すごい!私たちはウェブドアのボタンだけを実装する偽のドアテストを実行したいと思います。ユーザーがそれをクリックすると、「今すぐこの機能を実装しているので、私たちと一緒にいます」などを見せます(私は知っていますが、偽のドアはありません)最良の方法ですが、これが目的ではありません)。 14日間「テスト」します。 14日後、350のクライアントが私のサイトにアクセスし、この機能が表示されます。 265のクライアントがボタンをクリックします。

この機能について私は何を言えますか? 「はい、実装する必要があります。75%のユーザーがこの機能を使用するためです」(350の75%は262.5 <265)=> H0(少なくとも75%がこの機能を使用)は問題ないようです。しかし、それはまったく真実ではありません。大きなエラーが発生する可能性があるため(私はクライアントの約23%のみをテストしました)。

私が達成しようとしているのは:
私は言いたいと思います-「95%の信頼があれば、75%のクライアントがこの機能を使用するので、実装できます」。

私はすべての信頼区間、信頼レベル、サンプルサイズなどを失っています。誰かが段階的に信頼を取得する方法を教えてくれますか。それらの数値から何を数えることができますか(1500プレミアムユーザー、350ユーザーはこの機能を見て、265人のユーザーがこの機能を使用しました)。

3
piggy

あなたの例から、偽のドアテストを実行したとしましょう。その結果、265訪問者がクリックし、その日の総訪問者は5でした。

本当の質問は(あなたが正しく説明しているように)です。 この比率の境界(76%(265/350))の間は、合計populationになります(つまり、1500プレミアム加入者) 。そして、どの境界が最も近いかは、それがまだであると言えることです。 95%確実

これを計算できます。

ステップ1:

誤差範囲(MoE)を計算する

これらは私たちが必要とする値です:

  • _p_hat_(これは、サンプルで見つかった比率の76%にすぎません)= .76

  • alpha(これは1の信頼レベルであり、信頼レベルは説明で.95に選択されています(これは非常に一般的です)= 1 -.95 = .05

  • _Critical Z value for alpha/2_(この値をグーグルで検索するか、ルックアップテーブルを使用するか、ExcelのNORM.S.INV関数を使用できます。これはデータに依存しません)= 1.96
  • n(サンプルの参加者数)= 350

次の計算では、上記の値(.76と0.05および1.96と350)を使用します。

MoE = Z(alpha/2) * square root of (p_hat * ((1 - p_hat)/n))

ここで括弧を覚えておいてください。それを記入すると、あなたの例では次のようになります:
= 1.96 *(.76 *(1-.76))/ 350)の平方根
= 1.96 *(.76 * .24)/ 350の平方根)
= 1.96 *(.1824/350)の平方根
= 1.96 *(.00052114)の平方根
= 1.96 * 0.022828
=〜0.045

ステップ2

MoEを使用して上限と下限を計算します
下限 95%信頼区間の= p + hat-MoE = .76-.045 = .72(= '72%')
上限 95%信頼区間の= p + hat + MoE = .76 + .045 = .74(= '81%')

-> 95%の信頼度で、72%から81%の訪問者がこの関数をクリックします。

(もちろん、いくつかの注意点があります。たとえば、テストで言及した350人の訪問者(「サンプル」)はすべてプレミアムユーザーですか?そうでない場合、1500の数値に向けて信頼区間を推定することはできません。 。ランダムな訪問者の割合は、350と1500の間で均等に配分されます。)


これがお役に立てば幸いです!

3
Steven B. Peutz

あなたが説明したテストは、真の実験やテストではありません。仮説は不明確であり、結果を再現または一般化することはできません。この方法は、ユーザー調査に基づくものであるため、確率とCIを計算する意味がありません。ただし、クリックしたユーザーの数と機能に実際にサインアップしたユーザーの数を関連付けると、定量的な結果を得ることができます。

ただし、そのためには、実際に機能を有効にする必要があります。おそらく、ユーザーがこの新機能に関する通知にサインアップできるようにすることで、これを調査に変えることができます。 「この機能がリリースされたら通知してください。」

そこでいくつかの有用な情報を取得できるはずです。

1
Ling