評価：3つ星と5つ星。なぜ5なのか？

Question

投票を表示するために使用される最も一般的なインターフェースは「スター評価システム」で、特定の数のポイント（多くの場合、スターとして表されます）が各レビュアーによってアイテムに割り当てられます。このモデルは、AmazonからYelpまで、多くのサイトで見つかります。スターは、ユーザーが消費する（5つ星の評価システムはどこにでもあるように見えるので、ユーザーがそれらに慣れていない）と、私たちが計画していることの両方にとって、かなり単純なメカニズムのようです。

しかし、3つ星は、意思決定のために、消費者に5つ星よりも良い洞察を与えると思います。しかし、評価の数5の背後にある生理学は何ですか？なぜ3ではないのですか？

Kit Grose · Answer

理想的な数は実際には4星であるという、以前に提起された素晴らしいケースがありました（私がそれを見つけた場合、この回答を編集します）。

それは簡単なので、5つ星システムの3つ（または3つ星システムの2つ）に自然に引き寄せられるという考え方です。それでは、iTunesライブラリを見てください。あなたが私のようなものなら、3の数十億があります。

肯定的または否定的なオプションのみを提供し、「中立」を削除することで、ユーザーからより有意義なフィードバックが得られるようです。

それを適用する必要がなかったので、私はあなたがその心のどれかを保証することはできません、そして、4のうちの物事を評価することがユーザーが混乱したり不快に感じたりするかどうかはわかりませんが、それは興味深い考えです。

編集：私が参照していた実際の記事はまだ見つかりませんが、 Zeldmanがここで同様のケースを提示します。コメントは、「ほとんどの人が3に引き寄せられる」という主張に異議を唱える人も含め、「中立」/「多分」オプションを廃止する必要性を支持し反対する活発な議論を示しています。

このディスカッションのもう1つの本当に素晴らしい情報源は、ブログ Life With Alacrity で、これは 5つ星のスケールを明示的に論じている記事との比較評価より一般的な評価システム

さらに編集：明確にするために、私はこうして私の意見/理解を要約します：従来型のオプションの評価の分布について調査が行われました5つ星のスケール、およびその調査は、人々がより高い評価（3秒、4秒、および5秒）、特に4に引き寄せられることを示唆しているようです。オプションの5つ星システムは、実際に6評価を許可します。 0〜5。つまり、均等な分布では各評価が全体の17％になると予想し、通常の分布では最も人気のある評価は2と3になると予想します。

特にユーザーがコンテンツを所有している場合や、（iTunesライブラリのように）自分で選択して気に入った場合は、ユーザーが評価の正規分布に従うことを推奨するのはおそらく不合理です。ユーザーが意図的に「評価なし」を選択することはめったにないことも指摘する価値があります。デフォルトの評価であるため（他の評価をオプションにすることができます）、セット内で過大評価される可能性があります。

ここで一般的な解決策はありません。ただし、ユーザーに評価の選択を強制する場合（つまり、オプションとして「ゼロスター」を除外する場合）を除き、ユーザーが強い嫌いなアイテムと同じように強く嫌うアイテム（たとえば1-スターアイテムは、5つ星アイテムと同じくらい可能性があります）。

これはごく少数のシステムを記述しているため（1つの注目すべき例外は実際の新聞映画評論家であり、私はシステムの創始者であることを理解しています）、非標準システム、特に「ニュートラル」オプションを完全に除外するシステムで実験することで利益を得ることができます。。

Ben Brocka · Answer

ここには2つの問題があります。 詳細な評価（レビュー/その他を含む）、および詳細でない評価（評価のみ、レビューなし）の多くの細分性を失う実際には中立的な投票を使用しない 。

Amazonのレビューのような詳細な評価は本当に必要追加の細分性。詳細では、ユーザーが評価以上のことをしていることを意味します。彼らはその理由を説明している、彼らは彼らの評価に伴って完全なレビューを与えている。 Collective Choice：Rating Systems を参照してください。3ポイントシステム（eBayがその例です）が詳細なレビューに役立たない理由を具体的に示しています。注目すべきは、それらはきめ細かくなく、統計的に役立ちませんし、区別もされません。

対照的に、5つ星の評価システムはより詳細であり（「平均よりも少し良い、平均よりも少し悪い」レベルがあります）、それらはより細かいため、より明確になり、より頻繁に正規分布に従います- 詳細評価で使用した場合、詳細は 5つ星評価システムの使用で説明されています。

2つ目のポイントについては、評価の使用状況に関する統計を共有するYouTubeブログの投稿 5つの星が評価を支配するを参照してください。 Youtubeは「浅い評価」または詳細な評価の状況です。詳細でないとは、評価以外のフィードバックがないことを意味します。理由の説明はなく、単なる評価です。一般に、この状況では、人々はそれを好むか好まないかのどちらかです。 5つ星の評価システムを使用は、詳細でない評価システムが2つの数値（通常、最高と最低）にクラスター化された二峰分布に従う傾向があることを具体的に指摘しています。

三元系を提示することは単に混乱を求めているだけです。あなたの評価システムが本当に「私はそれが好き、それはまあ、私はそれが好きではない」という浅い評価システムを持つべきであるなら、私は強くお勧めします星を完全に捨てるそして、理解しやすいサムズアップ/ダウンシステムを実行します。評価が3つだけの二峰性分布に従うと、これらの評価の1つ（ほとんどの場合「中立」）は無視されます。

Schroedingers Cat · Answer

私が質問票を書くときに持っている本（Bradburn N; Sudman S and Wansink B（2004）Asking Questions-a definitive guide toアンケート用紙デザイン。SanFransisco：Jossey-Bass）またはあなたが何をしたいかに応じて、4ポイントスケール。これは特にアンケートに適用されますが、評価システムの場合も同じです。これは、1つの質問のアンケートにすぎません。

5ポイントスケールには、人々が極端にならずに承認または不承認を表明できるという利点があります。また、必要に応じて、極端な応答を表現することもできます。しかし、人々は極端であることに消極的である傾向があります。星が3つある場合、「いいね」または「気持ちがない」ので、かなり気に入った人を失うことになります。このように、「好き」「好き」を肯定的な反応を示すすべての人々に組み合わせることができ、それはより正確でなければなりません。

もちろん、この情報は常に非常に騒々しいものとして扱われるべきです。これに基づいてビジネス上の意思決定を行うには、いくつかの詳細な分析を行う必要があります。

4ポイントスケールには同じ利点がありますが、真ん中のオプションを削除して、人々に正または負の選択を強いるようにします。多くの人々が製品についてかなり中立であるため、これはウェブの評価に適したオプションではありません。これを失うことは、あなたの結果がいくつかの強い感情を持つ人々のみを反映することを意味します。データにはノイズが多いため、重要なバランス要素が失われます。

dnbrv · Answer

3つ星と5つ星ではありません。それは一般的な等級付けの原則です：粒度が細かいほど、洞察は深くなりますが、決定も困難になります。

5点評価システムが人気の理由は、その単純さにあります。 5ポイントは、感情全体を捉えることができる最も少ない数です：非常に悪い、悪い、中立、良い、非常に良い。より大きなスケールは、good＆badランキング（極端ではない）の粒度を増加させるだけです。

3点満点の問題は、過激に感じず、中立的でないときに、賛成か反対かの投票を強いられることです。それは潜在的に人々を苛立たせる可能性があり、その結果、不正確な投票が行われるか、まったく投票が行われなくなります。

グレーディングを単純化したい場合は、ノッチをyes/no、like/dislike、upvote/downvoteなどのシステムにドロップします。この方法では、賛成票が反対票で否定されたときに中立性がハードゼロによって示されますが、スケーリングが不十分であるという問題に直面することになります。

JeffH · Answer

私は直接的な研究を引用することはできませんが、3つ星よりも5つ星の内訳は、製品のレビューに関して細かい詳細を可能にすることだと思います。 3つ星の評価システムのユーザーの場合、「好き/好き」、「平均/大丈夫」、「嫌い/嫌い」のいずれかです。 5つ星の評価システムでは、ユーザーは次のようなことを言うことができます。

"（（Rating of 4）-それは良い製品ですが、私はこれについて1つ嫌いなので、完全に好きではありません"

これらの2つの追加レベルの柔軟性により、ユーザーは応答に対してより正直になることができます。 3層システムでは、ユーザーが製品の完全なレビューを入力する必要がない限り、これを行うことはできません。 UXの観点からは、ユーザーのフィードバックに対して可能な限り低い障壁を提供することが重要です。シンプルなワンクリックシステムを使用すると、ほとんどのユーザーは、システムが製品の体験を正直に伝えることができると信じている場合、より喜んでフィードバックを提供します。

Amandeep Jiddewar · Answer

他の回答が心理的側面に答えているので、あなたの質問に答えるためにいくつかの技術的側面を追加したいと思います（そして、これはあなたの知識のためだけにあなたが期待するものではないことを知っています）

のような多くのWebサイトには、Netflixに推奨エンジンと呼ばれるものがあり、ユーザーが見たい映画をユーザーに推奨しますが、今ではそれらの映画のガタガタも表示されます。、しかし、あなたは映画を見て評価したユーザーのマトリックスが非常にまばらであることを知って驚かれることでしょう。

今、最も難しい仕事は評価を推測することです（Netflixも Challenge をホストしていました）。評価スケールを3に下げると、整数値でのみ評価を許可した場合（または、ほとんどの場合と同じように0.5の間隔で評価する場合）は、それらを推測することが非常に難しくなります。したがって、彼らは上記の技術的な理由と上記の回答の心理的な理由から5を選択しました。

webvitaly · Answer

私見星系はうまくいきません。

例：記事に2つの「4つ星」の投票があると仮定します。つまり、投票した2人のユーザーが満足し、平均評価が4つ星であることを意味します。そしてしばらくして、記事が気に入らなかった新しいユーザーが来て、彼は「1つ星」の投票で記事を評価しました。したがって、今の平均評価は（4 + 4 + 1）/ 3 = つ星です。記事の平均評価は中です。ご覧のとおり、1人のユーザーは他の2人のユーザーよりも強力です。

like-dislike（plus-minus）システムの方がうまくいくと思います。 YouTubeで確認できます。この例では、1マイナスと2プラス= + 1になります。つまり、これはその記事が半数以上のユーザーに好まれたことを意味します。それは使いやすく、非常に有益です。

Darragh · Answer

ユーザーは、決定できないときは中立性に偏っています。私は、彼らの意見が1つまたは3つ星にぴったり合わない場合、デフォルトで2つ星になると思います

3つ星の評価では、絶対的な最高、絶対的な最悪、および良い点、悪い点、および平均点が一緒に投入されます。ほとんどのアプリは、このバイアスを補正する5つ星評価の恩恵を受けています。

Danny Varod · Answer

編集：

like/dislikeシステムは何かが良い場合を知るのに効率的です。スター（またはより良い、口頭スコア）システムは何かがどれほど良いかを知るのに適しています。

IMDBに高評価/低評価のシステムがあった場合、映画が良いかどうかはおそらくわかるでしょう。ただし、映画が素晴らしいか、良いか、平均的か、悪いか、またはあなたが見ることができる最悪のものかどうかはわかりません。

おそらく、最高のシステムは「好き/嫌い」の後に「どれくらいですか」という質問が続くでしょう。 =

スコアの付与の概要については、次のセクションをお読みください...

1選択肢のスケールを使用する場合、実際にはまったく選択肢がありません（有権者の割合を数えることはできますが、その測定がどれほど効果的かはわかりません）。 P.S。テレビのタレントはこのように仕事を見せます。

2つの選択肢（like/dislike）の小規模なスケールを使用する場合、ニュートラル（たとえば、「良くない、悪くない」）のオプションを指定しないため、ユーザーの最も近いオプションは投票しないでください。ユーザーが嫌いなものとして投票すると、悪くないものの見栄えが悪くなります。 例：SEのシリアル投票者

つの選択肢（例：bad, neutral, good）のスケールを使用する場合、人々は少し好きなものをランク付けする方法がわからない可能性があります。少し）。

4つの選択肢のスケールを使用する場合、好きでも嫌いでもない中立的なオプションはありません。

5つの選択肢のスケールを使用する場合、bad, baddish, neutral, goodish, goodがあるため、好きなものと少しだけ好きなもの（嫌いなものと同じ）を区別できます。

客観的にスコアをより大きなスケールで与えることは困難です。参考になるが、7つの選択肢または11つの選択肢（0 ... 10）。

たとえば、exceptionally bad, bad, baddish, neutral, goodish, good, exceptionally goodの7つの選択肢のスケールを考えてみましょう。スケールは非常に有益ですが、ユーザーは意味を熟考する代わりに、気まぐれに非常に良いまたは非常に悪い票を投じる可能性があります（「これは最高（または最悪の1つです））私は今までに見たことがあるかどうか？」） 5つ以上の選択肢には数字を使用しないでください。口頭の選択肢を使用すると、共通の尺度を提供できます。