A/Bテストに関して、「サンプルサイズ」と「エフェクトサイズ」は何を意味しますか?誰でも簡単な言葉で例を説明できますか?
効果サイズ
A/Bテストでは、効果サイズは、AとBの間で観察されたパフォーマンスの違いです。たとえば、次のA/B結果を見てください。
したがって、Aの変換率は10/103 = 9.71%で、Bの変換率は6/97 = 6.19%です。データは、多くの訪問で、Aが9.71/6.19 – 1 = 57%多いコンバージョンを獲得することを示唆しています。したがって、相対的な比例差で示される効果サイズは57%です。他にも効果の大きさの測定がありますが、相対的な比例の違いは、より便利で直感的なものの1つです。あなたはそれを見て、「ええ、57%はかなり大きな違いです」と言うことができます。たとえば、57%の効果サイズは、各コンバージョンの平均値が変わらないと仮定すると、AよりもBの方が57%多い収益を期待できることを意味します。それは多額の「引き上げ」です。
サンプルサイズ
サンプルサイズは、A/Bテストのビジター数、またはこの例では103 + 97 = 200です。これは、偶然の影響に関して持つべき自信に関連しています。この200回の訪問のテストでは、AがBを上回りましたが、ユーザーはコインの単純なデジタルフリップによってAまたはBを与えられました(正しく実行した場合)。このランダム性の要素を考えると、AがたまたまAまたはBを取得したかどうかに関係なくコンバージョンに至ったユーザーをさらに獲得した可能性があります。おそらく、A対Bのreal効果はありません。たぶんAはラッキーになりました。
直感的には、サンプルサイズが大きいほど、偶然にAがBよりもパフォーマンスが低下する可能性が高い(またはその逆)と感じています。人々は、サンプルサイズを使用して、Aが実際にBよりも優れていると信じるべきか、それとも当然の結果として結果を却下すべきかを判断します。だから、誰もがサンプルサイズを知るのが好きです。
サンプルサイズは廃人です
ただし、実際には、サンプルサイズ自体はほとんど意味がありません。 A対Bが実際に効果があるかどうかについて、数値を見て信頼できる結論を出すことはできません。サンプルサイズが2,000,000の場合、偶然の影響はかなりありそうです。サンプルサイズが20の場合、偶然の影響はほとんどありません。
AとBの対比が実際に影響を及ぼさない場合、AとBの確率を計算するは、テストと同じように見える可能性があります(および統計のルーチン)。その確率が「p値」です。それがあなたが本当に知りたいことです。
上記の例のp値は0.439です。 A対Bの効果がない場合は、43.9%の確率でそのような結果が表示されます。 Aの主張する「優位性」にあまり興奮しないでください。*
サンプルサイズはp値の計算におけるパラメーターですが、サンプルサイズ自体は非常に誤解を招く可能性があります。まず、一般的なA/Bテストでは、コンバージョン率が非常に低いため、non-conversionsの数が多くても、どちらにしても問題ありません。たとえば、次のことを考慮してください。
エフェクトサイズは変更されていません。AはBよりも57%優れています。変換率が以前の10分の1であるだけです(おそらくより現実的です)。
しかし、ウーフー! 2000人の訪問者! 10回サンプルサイズ!しかし、実際のp値は何ですか? 0.456。脂肪が多いほど、サンプルサイズが大きくなります。
効果のサイズはp値に影響します。テストでAとBの差が大きいほど、チャンスが結果を生成する可能性が低くなります。つまり、確かに、AはBよりもfew変換準備の整ったユーザーを獲得する可能性がありますが、バットロードの方が多いですか?それは信頼性に負担をかけます。 Aはとても幸運になることができます。 200のサンプルサイズを考えますが、Aが実際にBを吹き飛ばします。
相対比例差は282%-Aの変換率はほぼ倍 Bです。しかし、もっと重要なこと(har har *)、p値は0.0165です。 A対Bが実際に影響を及ぼさないのは本当に信じられないことです。私はAが本当に優れていると確信しています。
恥知らずなプラグイン
統計と使いやすさの詳細については、私の 一連の投稿 を参照してください。 Stat 101 は、概念の数学的ではない概要です。 Stat 2 A/Bテストをカバーします。
* p値を解釈するには、「統計的有意性」の科学的伝統に近いものをお勧めします。p値が0.05以下であれば、A対Bが実際の効果であることがわかります。 IMO、0.10付近のp値は、実際の効果がないと思わせるかもしれませんが、特に効果のサイズが大きい場合は、結果を必ずしも拒否するべきではありません。 0.20以上のp値を持つ結果は、効果の大きさに関係なく、真剣に受け取られるべきではありません。効果のサイズが大きい場合は、A/Bテストを実行し続け、それが成立してp値が下がるかどうかを確認するように指示します。ところで、私はフィッシャーの正確検定を使用してこの回答のp値を計算しました。これはA/B検定に適した選択肢です。
(非常に)簡単な言葉で:
サンプルサイズ-A/Bテストに含まれる訪問者(参加者)の数
効果サイズ-AとBの違い
(非常に)単純な例(A/Bテスト結果):
A/Bテストの合計サンプルサイズ-100 000人の訪問者=バリエーションA +バリエーションB.
A/Bテスト効果サイズ-バリエーションBのコンバージョン率(2.80%)は、バリエーションAのコンバージョン率(2.00%)より40.00%高くなっています。
もちろん、それだけではありません。 A/Bテストの開始に関する良い記事:
要約すると:
サンプルサイズ:テストから良い結果が得られた参加者の数について話します。参加者が多すぎると、最良の結果が得られないか、すべての欠陥を見つけるのに役立ちません。ほとんどの問題は5人のユーザーによって明らかにされます。さらに多くのユーザーが関与している場合、新しい問題が見つかるかどうかはわかりませんが、同じ問題が見つかる可能性があります。ただし、ユーザーの「数」は、実施している研究の種類によって異なります。
詳細については、 https://www.nngroup.com/articles/how-many-test-users/http://www.humanfactors.com/newsletters/how_many_test_participantsをご覧ください。 .asp