web-dev-qa-db-ja.com

オンラインA / Bテストに関連するユーザー割り当ての問題から生じる内部/外部の有効性の問題をどのように軽減しますか?

ウェブサイトのユーザーを正確に追跡することは不可能だと言っても、それはかなり安全です。 Cookieは頻繁に消去されるため、Cookieを使用してユーザーを正確に追跡することはできません。 a。)人がサイトを使用しているときに常にログインするわけではないため、b。)ユーザーが複数のアカウントを持っているため。多くのユーザーが広告ブロッカーを持っているため、A/Bテストの分析ソリューションに依存することはできません。

通常、ほとんどのWebサイトでユーザーを正確に追跡することはできないため、A/Bテストグループにランダムに割り当てることはできません。これは、研究の内部と外部の両方の妥当性を損なう。たとえば、真のランダムな割り当てが不可能であったり、ユーザーベースのサブセット(つまり、広告ブロッカーを持たない人々)しかテストできないため、母集団の有効性が損なわれる可能性があります。

有効性の問題(特に母集団の有効性の問題)が軽減されるように、A/Bテスト中にユーザーの割り当て、またはユーザーのA/Bグループへの分割をどのように処理しますか?

5
Dreadnaught

内部有効性とランダム割り当て

内部の有効性はランダムな割り当てに依存し、テストのために到着したユーザーがUIのAバージョンとBバージョンのどちらを取得するかが決定されます。これは、疑似乱数ジェネレータを使用して各ユーザーのセッションのUIを設定することで簡単に実現できます。セッション間でユーザーを追跡することの困難さを説明していますが、A-Bテストのデータは単一のセッションで発生するため、それは無関係です。 1つのセッションでユーザーを追跡できる限り(ユーザーアカウントやIPアドレスなど)、問題はありません。

同じユーザーがA-Bテストを2回受けることに懸念がある場合、それは内部有効性の要素ではありません。内部有効性のロジックでは、ランダム割り当てによって保証されるように、AグループとBグループのユーザーが統計的に同等である必要があります。ユーザーが同じグループに2回表示されるか、各グループに1回表示されるかは、すべてのユーザーの確率が同じである限り問題ではありません(たとえば、グループAでグループBとしてリピートユーザーを獲得する可能性は同じです)。

外部有効性とランダムサンプリング

外部の有効性はランダムサンプリングに依存するというのは神話であり、母集団の各ユーザーはテストサンプルに含まれる可能性が等しくなります。外部の有効性はrepresentativeサンプリングに依存します。サンプルのユーザーは、すべての関連ディメンションで、母集団のユーザーと平均して同じです。 2つの間の混乱は、ランダムサンプリングが完全に統計的に代表的なサンプルを持っていることを確認する方法であることによるものです。

しかし、完全に代表的なサンプルが必要ですか?または、サンプルからの発見を特定の母集団に一般化するのに妥当であるように、サンプルは十分に代表的ですか?サンプルと母集団がどのように異なるのかが「わからない」ので、外部の有効性はないという考えの罠に陥らないでください。広告ブロッカーを使用しているユーザーを除外すると、平均してあなたが含めたユーザーとは異なるパフォーマンスを期待できるという重大な理由がありますか? A-Bテストが広告(または広告のようなもの)への反応を評価する場合、「はい」と答えます。 A-Bテストがメニュー項目の順序に対する応答を評価する場合、私はノーと言います。それは判断の呼びかけです。

緩和することもできます。母集団が、結果に影響を与える可能性があるいくつかの次元でサンプルとは異なる可能性があると考える正当な理由がある場合は、それを測定します。たとえば、広告ブロッカーを使用するユーザーは、ウェブに精通しており、ウェブに精通しているため、より専門的な機能を備えたUIを使用するほうがよいと主張するのは妥当です。そのため、A-Bテストのアカウントとそうでないアカウントのアカウントを比較し、さまざまな専門知識の証拠がないかどうかを確認します(たとえば、アプリの使用頻度、デフォルト設定の変更)。違いがない場合は、心配しないでください。存在する場合は、サンプル内のエキスパートユーザーを分析し(一部が存在する)、非エキスパートから分析し、パフォーマンスの違いがあるかどうかを確認します。

リピートユーザーが推定統計に与える影響について心配している場合は、心配しないでください。ほぼすべての推論統計では、ランダムサンプリングと置換を想定しています。ユーザビリティテスターや研究者は、繰り返し参加者を除外するための措置を講じることがありますが、これは主に「見た目がよくない」(顔の妥当性)こと、および一般に実際の人口(通常はすべてを含む)であると想定されているためです潜在的なユーザー(現在のユーザーだけでなく)は非常に大きいため、繰り返し参加することはほとんどありません。

記述した方法でリピートユーザーを防ぐための対策を講じることをお勧めします(特に、サイトには通常、非常にヘビーなユーザーと使い捨てのユーザーのロングテールがあるため)。しかし、私が妨害する一握りのリピートユーザーについては心配しません。 ABテストサンプルの典型的な数百人または数千人の参加者からの努力。リピートユーザーを防ぐためにどの方法を使用するかは、特定のテストとサンプリングバイアスの合理的な影響によって異なります。たとえば、ABテスト期間が1週間のみで、一般的なユーザーが1か月に1度しかサイトを使用しない場合、ごくわずかな割合のユーザーが1週間に2回サイトを使用すると予想できますセッション間でCookieをクリアしてしまいました。

有効性はバイナリではない

妥当性はバイナリ変数ではなく、程度または判断の問題です。 A-Bテストのように、研究で1つの欠陥を見つける傾向があり、その研究は完全に無効であると結論付けていることがあります。そのように機能するものはありません。完璧な研究はありませんが、特に直感的な推測の代替案と比較して、すべての研究が価値がないわけではありません。あらゆる研究は、特定の結論に対する特定の強さの「証拠」です。それは決して結論の「証拠」にはならず、めったにがらくたになることもめったにありません。

研究の弱点を見つけたら、自問する必要があります。この特定のケースではどのような影響がありますか?致命的な欠陥ですか?フォローアップ調査が必要となるほど信頼性が低下しますか(例:A-Bテストで勝者を先に進め、そのパフォーマンスを監視します)?信頼度が98%から95%に低下するだけですか?実際、それは結果を強化しますか?

これは、内部の有効性についても当てはまります。私は相関研究をすぐに拒絶しません。はい、A-Bテストのほぼ完全な内部有効性はありませんが、それはゼロの内部有効性があることを意味しません。私はデータのパターンを注意深く見て、暗黙の因果関係がどれほど合理的であるか、他の考えられる因果関係の経路が合理的であるか、そしてどの証拠がそれらを除外するかを自分自身に問いかけ、結論にある程度の自信をつけます。

1

ここでは幅広い質問なので、1点だけに焦点を当てます。

有効性の問題(特に母集団の有効性の問題)が軽減されるように、A/Bテスト中にユーザーの割り当て、またはユーザーのA/Bグループへの分割をどのように処理しますか?

VisualWebsiteOptimizerのようなツールを使用して実際にWeb A/Bテストを行っている場合、ランダムな割り当てが組み込まれます。トラフィックサポートがAとBの違いについて自信を持って回答を得ていると仮定すると、行う必要があるのは設計だけです。明確な独立変数を使った良い簡単な実験であり、それを公正な戦いにします。

トラフィック全体の10%を特定のURLから実験に流用し、AグループとBグループの間で50/50に分割するとします。あなたのサンプルは同じユーザー集団から取られたものですよね?つまり、これは効果的な洗浄です。

あなたがしなければならないのはそれを設定し、80%、95%、または99%になるのに十分なNサイズができるまで、それを忘れるだけです。AグループとBグループが異なる(または事実上同じ)と確信できる場合でも、まだ何かを学びます。 )

0
Luke Smith