行動を促すフレーズの3つの異なるボタンの色をテストするテストを実行しました。 CTAにより、オファーページが表示されました(TVパッケージにサインアップするための特別オファーがありました)。しかし、3つのバリエーションのうち、ユーザーがオファーにサインアップするという私たちの主な目標のコントロールに対して統計的に有意な改善を示したものはありません。
ただし、1つのバリエーションは統計的に有意なコントロールの増加を示しましたが、完全に無関係な目標である、ペイパービューの映画購入です。 Pay Per Viewの映画はオファーページからもリンクされていないため、違いを実際に説明することはできません。
VWOを使用したところ、コントロールオレンジボタンよりもグリーンボタンが20%向上しました。優勝したバリエーションでは、49064人の訪問者あたり255のコンバージョンがあり、98%の確率でコントロールを打ち負かしました。
この勝利のバリエーションをローンチするにはどうすればよいですか?それをビジネスにどのように説明しますか?
これは片側検定でしたか?
まず第一に、あなたの統計的検定は、探索的作業のように聞こえるものに使用すべき両側のp値ではなく、片側のp値を与えていると思います。私はあなたのp値が0.02だと言っていると思います(つまり、ランダムな運によってコンバージョンの観察された差異が得られる可能性は2%あります)。ただし、コントロール条件への訪問者数が変動とほぼ同じである場合、0.04から0.05の範囲に近いはずです((a)訪問数を知る必要があるため、正確な値を計算できませんコントロールの変換、および(b)バリエーションあたりのサンプルサイズが約50,000で、手作りの小さなフィッシャーの正確な計算機の心を吹き飛ばします)。
Elevated Type I Error?
それでも、私の本ではp値が十分に低いため、ランダムな効果ではなく体系的な効果があると信じる価値があります。ただし、多くのテストを行っているように聞こえる場合を除きます。推論統計が機能する方法、実際には実際の影響がない20のバリエーションのうちの1つwill平均で「統計的に有意」に出力されます。このようなイベントはタイプIエラーと呼ばれます。それが実際に持ってはならない効果について多くのバリエーションをテストする場合、あなたはする必要があることを意味しますexpect 20のうちの1つは偽の効果を示すでしょう。
それであなたは20回のテストをしましたか?これは、実際にすべてのバリエーションが何も実行しない場合に発生するはずです。 20のテストを実行しなかった場合でも、実行するテストが多いほど、1つ以上のテストでタイプIエラーが発生する可能性が高くなります。たとえば、3つのテストを実行して、3つのバリエーションを主要目標のコントロールと比較し、さらに関連のない目標のバリエーションごとに3つの追加テストを実行し、合計で少なくとも6つのテストを実行したようです。実際、どのバリエーションも影響を及ぼさない場合は、0.26の確率で少なくとも1つが「統計的に有意」となる可能性があります。それはかなり高いチャンスです。 15のテストを行った場合(たとえば、5つの目標で3つのバリエーションをテストした場合)、0.54のチャンスがあります。--おそらくは、少なくとも1つの偽の結果を取得します。それがここで起こっていることだと思います。
経済的影響?
いずれにせよ、これが実際の影響である場合、5万人の訪問者あたり約40のコンバージョンしか得られないと私たちは推測しています。優勢なバリエーションを本番環境に移行するコストに値するものではないかもしれません。それがそうであるかどうかは、1か月あたりの訪問者数、各コンバージョンからの利益、バリエーションを本番環境に組み込むための作業量によって異なります。あなたはそれが報われるまで何ヶ月かかるかを計算できるはずです。何年もかかっても気にしないでしょう。
潜在的な教訓
レッスンは、オンラインA-Bテストサービスが何を言っているかを盲目的に信頼できないということかもしれません。それらの多くは、おおよそ正しい(つまり、間違った)p値のみを提供します。片側のみの値を与えるだけでなく、一度にコントロールに対して1つのバリエーションのみをテストすることを強制し、テストの数を増やし、結果として誤った結果の可能性を増やします。単一のp値( Chi-square または を生成する特定の目標について、コントロール(および相互)に対するすべてのバリエーションを一度にテストするための非常にシンプルで一般的に知られている手順があります。 G-test 2列を超える独立性))、ただしオンラインサービスではそのオプションは提供されません。 Bonferroni Correction と呼ばれる単純な調整もあります。これらの偽の結果を制御する複数の目標のテストに適用できます(データに修正を適用すると、もはや重要に近づく)。
Stat 2 で、オンラインA-Bテストで表示されるエラーのいくつかについて説明します。ユーザーパフォーマンステストの統計の非数学的な概要については、 Stat 101 を参照してください。
私たちの前にサイトがないと、特定の理論を思いつくのはおそらく難しいでしょう。しかし-考えるべきいくつかの事柄。
あなたは実験方法論をどれくらい確信していますか?エラーがあったのでしょうか?
実験の全期間にわたって、さまざまなオプションがランダムに提示されましたか?そうでない場合、外部要因(PPVの個別のプロモーションなど)によって、1つのバリエーションが別のバリエーションよりも高くなる可能性があります。これは実際には前の問題(悪い方法論)の例ですが、私が何度か遭遇したものです(たとえば、3つすべてを並列に実行するのではなく、オプションA、オプションB、オプションCを提示する人々)。
バリエーションはオファーのサインアップを向上させませんでしたが、ユーザーの行動に他の影響を及ぼしましたか?たとえば、オファーのサインアッププロセスが
バリエーションによって、人々が(1)から(3)に到達する可能性は高くなりますが、人々が(4)に到達する可能性は高くならない場合、オファーのサインアップは増加しません。ただし、(2)および(3)もナビゲーション/サイドバーにPPVオプションを表示している場合は、購入を期待してサイトにすでに来ている人々にPPVを提示する効果があります。その時点で彼らにとって魅力的なオプションです。したがって、PPVの上昇。
もちろん、これはサイトを見て、実験方法論について理解を深めることなく、完全な当て推量です。
この勝利のバリエーションをローンチするにはどうすればよいですか?
なんらかの実験的なエラーが原因ではないと仮定して-はい。
それをビジネスにどのように説明しますか?
「私たちの実験では、これがPPVの購入でより多くのお金を稼いだことを示しました。理由はまだわからないので、調査を続けます。ここにいくつかの理論があります(もしあなたが持っている場合)。多分別の長期テストを実行して、それが現実の世界で機能するかどうかを確認します。」.