星は良い評価システムですか？

Question

この他の質問から自分を引用すると、レビューが「良い製品」である場合に1つ星で評価するユーザーがいます。また、逆に、「悪い製品」レビューで5つ星を付けるユーザーもいます。、時々。

私の視点から見ると、それは信じられないほど奇妙なことです。私は常に星系を意図したとおりに見てきました（星が多いほど良い）が、一部のユーザーは同じように見ない傾向があります。

数値スケールの場合、どういうわけか、ドイツで発生する可能性があることは知っています（1つが「最高」または「最悪」を意味する両方のケースを見てきましたが）、このケースで発生する可能性があることは知りませんでした。

それで、この比較的個人的な説明の後、星は良い評価システムではないのではないでしょうか？

それとも、彼らがそれを真剣に受け取っていないというだけですか？

Jason · Accepted Answer

単に混乱するので、私はそうは言いません。他の誰もが投稿したように、星による評価は主観的なものであり、3/5が他のユーザーよりも悪いと感じる人もいます。

ユーザーが何かを評価したい場合は、ユーザーが何が起こっているかを直感的に把握できるように、さらに単純化するのが最善です。

そのため、YouTubeはスターから嫌いな動画への切り替えを始めましたが、最初は反動がありましたが、時間とともに徐々に改善され、コミュニティによる動画の表現が向上しました。これは他の多くの人気サイトでも見られます。

YouTube（以前はFacebookとGoogle）のUX LeadであるMargaret Gould Stewartから以下を参照してください。

「数年前、私がYouTubeで働いていたとき、私たちはより多くの人々に動画の評価を奨励する方法を探していましたが、興味深いことに、データを調べたところ、ほとんどすべての人が最も高い5星評価、少数の人々が最も低い1つ星を使用しており、事実上誰も2つ、3つ、または4つ星を使用していませんでした。そのため、単純化して、アップダウン方式の投票バイナリモデルを作成しました。これにより、はるかに簡単になります。人々が関わるために。

しかし、人々は5つ星の評価システムに非常に執着していた。ビデオクリエイターは、自分の評価を本当に気に入っていました。何百万人もの人々が古いデザインに慣れていました。したがって、人々が変更に備えて新しいデザインに早く慣れるのを助けるために、私たちは実際にコミュニティと共有するデータグラフを公開し、私たちがやろうとしていることの理論的根拠を公開しました。その結果、私のお気に入りのTechCrunchの見出しが次のようになりました。

http://www.ted.com/talks/margaret_gould_stewart_how_giant_websites_design_for_you_and_a_billion_others_too/transcript?language=en

Crissov · Answer

星評価0〜5または1〜5（最悪-最高）のいくつかの可能な視覚化があります。一部のユーザーは他のユーザーよりもユーザーに解釈の手がかりを提供します。一部のユーザーは特定の書き込み方向（ほとんどは左から右）でのみ機能します。ほとんどの星の評価システムは象徴的な固定ステップゲージであり、多くの場合インタラクティブです。

評価=可視または点灯している星の数

評価には、星自体やキャンバスの色の変化（他の質問を参照）が伴う場合がありますが、これは簡単に恣意的であるため、あまり役に立ちません。
評価は固定幅のボックス内にある場合があります。これは明らかに、5つに収まり、授与される星の最大数を直感的に示します。
塗りつぶされた各星は、明確に方向を示すために以前のものより大きくなる可能性がありますが、最大値は不明である可能性があります。（これは、図よりもわかりにくい方法で使用できます。）
非アクティブな星（黒/灰色/白）以外の輝く星、または弾丸のような他のプレースホルダーも、方向が不明確な場合や、中央の星が消灯している場合（バイアスロンターゲットなど）を除いて、最大値を明確に示します。
半塗りの星または追加のシンボルにより、ステップ数が5（または6）から約10に増える場合があります。
ノンリニアアライメントは軍隊のような従来の場所かもしれませんが、星の最大数を明確に示していません。cf。サイコロサイドs。

関連した

星を使用した月の評価（ラジアルゲージ）：評価=塗りつぶされたギザギザ0 =中空の星5 =塗りつぶされた星（cf.- ハービーボール）、ハーフスター評価と混同しないでください。仮定のバリアント：Jags Rating中央のどこかに5つ星の星が付いています•▴✦★✶✷。
バッジを使用したバッジの評価、たとえば白、赤、青、銀、金の星（たとえば、別の回答が示すようにE-Bayで）
ハート評価（♡♥）またはいいね単一の星を使用して、 お気に入りとして追加エイリアスブックマークとして使用
賛成票と反対票（2つの選択肢⬆︎⬇︎⊕⊖）、Thumb Rating（2つまたは3つの選択肢????????）またはSmiley Rating（2つ以上の選択肢☺︎☹）中空の☆と塗りつぶされた星★または異なる色の星–使用されたことはありません
半円ゲージ評価星を追加の指標として
記号を使用した記号カウンター、たとえば、国際サッカージャージ（5回以上の勝利で異なる色または異なるシンボルと組み合わせることができます）
最大値の増加（ボリュームノブの11、AAA +の信用格付け、または7つ星ホテルなど）は、宣伝のスタントとして1回または短時間のみ機能します。

一部のサイトやアプリでは、1つの星のセットで2つの異なる評価を表示しようとしています。

achromatic stars
5以外の数（多くのリッカートスケールでも見られる）または灰色の背景に白いプレースホルダーが付いた黒い星を使用している場合、問題が発生しますが、それ以外の場合、星は次のようにうまく機能します。 大まかな指標。ただし、問題があります。 入力ウィジェットであることも得意かどうか（You Tubeの例の詳細については、@ Jasonの回答を参照してください）。その簡潔な声明の前にある広大な答えでごめんなさい。

また、 [〜＃〜] xkcd [〜＃〜] は再び正しくなりました。

Alejandro Veltri · Answer

星の評価システムは、ユーザーサイドから一般的なアイデア品質製品のを与えることから、実際にはかなりうまく機能していますが、それ以上のものは期待できません。。

次の理由により、評価はほとんどのユーザーによく知られています。

現実の世界に精通している：それはホテルで世界中で使用されています品質の尺度としてです。
Webに関する知識：これまで大規模なトラフィックのWebサイト全体で使用されています一貫した結果（ショップサイト、映画、シリーズサイトなど）がありました。

それらができる限りうまく機能するようにするために、考慮に入れるいくつかの機能があります：

赤から緑へのグラデーション
表示ホバー時の説明

そして、製品を表示するときは、評価をより意味のあるものにする完了した投票数を表示することを確認してください。

enter image description here

回避すべき何か：評判を示すこの方法（例としてEbay）。色付きの星を思い出すことは無限で不可能です。

enter image description here

ユーザーが選択した星の数とコメントの間で「一貫性の検証」を行うことは不可能であるため、イルカがいる、またはいないと失敗するユーザーも常にいますが、結局は少数派になる傾向があります。

ユーザーが1つ星または5つ星を投票する傾向についての問題は、このモデルを分析する際に考慮に入れるべきものだと思いますが、Like-Dislikeアプローチは、製品をIMHOに評価するには過激すぎます。私にとって良いアプローチは、製品について話すので、プラス+マイナス+ニュートラルの3つの状態を持つシステムです何かが良いと思うかもしれませんが、「十分ではない」、または"ない期待どおりですが、まだ有用です、そしてその情報は製品販売者にとって本当に有用です。おそらく5つ星は、平均的なユーザーがそれらを「決定」するには多すぎるため、極端に落ちてしまいます。

Navot · Answer

星評価システムは、多くの認知エネルギーを必要とします。

Youtubeがスターベースのシステムからバイナリのthumbs-up humbs-downに切り替わると、その評価は何倍にもなりました。マイクロレベルで感情を定量化することは（ほとんどのYouTube動画に対して、あまり何も感じていないと思います）難しいです。

しかし、それは現代の人間にとって全く異質ではありません。調査アンケートにはそれがあり、映画レビューにはそれがあり、多くのオンラインコンテンツにはそれがあります。

私はあなたの製品について何も知りませんが、人々が許容できる量で評価しているなら-システムは良いです。問題は明確化の1つです。

調査アンケートでは、「1が最も低く、5が最も高い」という明示的な質問があります。ウェブサイトはもっとエレガントである必要があります。

個人的には色が曖昧すぎると感じています。もちろん、金、銀、青銅は理解できますが、それは3つだけです。青と赤を混ぜることは少し奇妙です。

マウスオーバーの説明は適切な方法ですが、モバイルユーザーには関係ありません。もう1つの可能な解決策は、言語的で数値的でないものを処理することです。ユーザーに1つまたは2つの単語を感情の独自の言語的解釈と比較させることは、1〜5のスケールで評価するよりもはるかに簡単です。

virtualnobi · Answer

星の問題ではなく、1〜7（リケルトのような）スケールと好き/嫌いのオプションの違いについて：

1〜7のスケールに数学的平均を使用する場合、全員が4票を投じた場合と、半分が1票を投じ、半分が7票を投じた場合との間に違いはありません。

したがって、1〜7のスケールは、統計的分散（上記の例とは異なり、2番目の例ではコンセンサスがないことを示す）も使用する場合にのみメリットがあります（必ずしもユーザーには表示されません）。

星系で視覚化された分散を見たことがない-統計論文では、それは平均値の周りの棒として示されていると思います。バーの長さは、スケールの評価がどの程度分散しているかを示します。たとえば、これはここにあります

Tom · Answer

最も複雑な評価システム「ebay」の私の個人的な経験。

私はこのサイトで多くのアイテムを売買しました。私が見つけたのは、約77％がフィードバックを提供し、各フィードバックはスケールで1ポイントの価値があるということです。肯定的なフィードバックは、主に購入/発送の速度と、アイテムの受け取りまたは受け取りの速度です。負のフィードバックは主に、遅れて届いたアイテム、壊れたアイテム、間違ったアイテム、そしてそれを信じているかどうか、アイテムの説明を読んで誤って購入できない人々からのものです。部品について何かをリストしたり、大きな赤い文字が表示されていて機能しないので、それが購入者に読まれることを意味するわけではありません。 ebayは、それが全体としてフィードバックシステムにさらに悪影響を及ぼしている場合でも、負のフィードバックを削除しません。私はカラースタースケールが好きですが、1つ残したい場合にコメントが含まれる、親指を上にして親指を下にしてメンバーが行ったトランザクションの数をカウントする必要があります。