ランキングアルゴリズムをA / Bテストするにはどうすればよいですか。

Question

ランキングアルゴリズムのA/Bテストの架空の状況を説明します。 YouTubeの人気ランキングアルゴリズムを担当しているとします。最も興味深い動画をリストのトップに表示する必要があります。 2つのアルゴリズムがあります。おそらくそれらは：

人気A = 10 *ビュー+ 5 *コメント-2 *秒
人気B = 8 *お気に入り+ 2 *いいね+ 4 *ビュー

Youtubeのユーザーの半分はPopularityAを使用し、残りの半分はPopularityBを使用します。各テストグループの幸福値を定量的に測定して、どのアルゴリズムがより優れているかをどのように見つけますか？

Schroedingers Cat · Answer

問題は、成功基準を定義する必要があることだと思います。あなたは、リストの一番上で最も「興味深い」結果を得たいと言っています。これをどのように定義しますか？「ビデオをクリック」が「興味深い」の十分な定義である場合は、何人がトップ10の結果のうちどれだけクリックしたかを確認する必要があります。あなたの定義が、コメントするのに十分なほどビデオを楽しんでいると定義している場合、リストからリンクされているビデオからのコメントの数を数えます。

ランク付けアルゴリズムが実際に何のためにランク付けされているかを明確に識別したら、比較方法がわかると思います。現状の問題は、あなたの定義がまだ行き過ぎであるということです。

Mervin · Answer

あなたは幸せとは何かを定義する必要があります。その人が探していたビデオを見つけたのか、それとも検索クエリから返された結果に満足していたのか。どのような場合、 "幸福"の決定は検索結果レベルで行われ、動画ページでは行われません。これは、 "幸福"の要素が、彼が動画をどれだけ好き/嫌いだったかに影響されるためです。

したがって、あなたが取ることができるアプローチは、Amazonが彼らのレビューシステムで行うことと似ています：

enter image description here

ユーザーが探しているものを見つけたかどうかをユーザーに尋ねる場所。もちろん、さらに一歩進んで、彼らが検索結果をどのように気に入ったかについて匿名のコメントを提供するように依頼することもできます。

別のアプローチは、ユーザーが検索の質を評価できるようにする検索結果ページの近くに評価システムを提示することです。

これらは検索の品質に関するいくつかの入力を提供する可能性がありますが、フィードバック/評価オプションに気づくユーザーに大きく依存します。したがって、別の方法として、検索ページで動画の1つを実際に選択して、その動画ページに移動する人の数を確認する方法があります。別の検索クエリを入力する必要はありません。これにドリルダウンするもう1つの方法は、検索結果の成功を確認することです。たとえば、各ビデオに重みを追加します（たとえば、一番上のビデオが最も重み付けされ、2番目のビデオが2番目に重み付けされる、など）。

さらに掘り下げたい場合は、検索結果に戻って満足度を確認するために、ユーザーが動画の視聴に費やした時間を測定します。

今、私はこれの多くが理論的なものであることを知っています、そして多くのバットがあります、そしてもしそうならあなたは理論的な質問の解決策を求めました:)

dnbrv · Answer

それはすべてあなたの目標とあなたが作成しているリストの種類に依存します。

人気や最新などの一部のリストは、特定の期間にすべてのユーザーに対して一定です。そのようなリストは事実として認識されるため、ユーザーはそこでアルゴリズムを気にしません。ある期間における最新のコンテンツのリスト、または最も多くのビュー/コメント/高評価/組み合わせ/その他を含むコンテンツのリスト。そのようなリストでは、ランクにどの要素がより重要であるかを決定するのは完全にあなた次第です：表示したい反応（つまり、ビュー、コメント、いいね、シェアなど）により多く/少ない重みを付けます。

クエリに対する検索結果や、過去の使用状況/プロファイル/接続などに基づく推奨事項など、ユーザー情報に依存するリストを扱う場合は、ランキングがはるかに重要です。しかし、成功を測定する方法はたくさんあります。次のような人の数になる可能性があります。

提示された最初の5つのアイテムのうち1つだけを表示し、残りはチェックアウトしないでください。
提示された上位5つの項目をすべて試し、クエリを変更しないでください。
コンテンツページで何らかのアクションを実行します（保存、評価、賛成票、コメントなど）。
コンテンツページにはアクセスせず、リストのあるページからアクションを実行します。

使用する測定基準の決定は、コンバージョンファンネルとビジネス目標に依存するため、完全にあなた次第です。

ただし、コンテンツや機能の人気度に大きく依存するため、自己報告による調査のみに依存することは警告します（たとえば、「これは役に立ちましたか？」と尋ねます）。 AmazonでのKindle Fireのトップレビューのスクリーンショットをご覧ください：

enter image description here

その存在の4か月（2012年3月8日現在）で、ページを訪問した数百万人の22,108人がその品質に投票しました。それが印象的でない場合は、ここにファイトクラブ（本）のトップレビューがあります

enter image description here

9.5年（2012年3月8日現在）では、数十万人の398人だけがその品質に投票しています。 それは非常に低いです。