web-dev-qa-db-ja.com

ユーザビリティのベンチマークと評価-アプローチと評価尺度の選択

私はいくつかのUXベンチマークアクティビティを実施しており、個々のタスクレベルとアクティビティ(マルチタスク、概要)レベルの両方でさまざまなアプローチを比較しようとしています。私は、評価尺度に関するベストプラクティスの背後にある数学の複雑さに精通していないので、評価尺度を決定する際のアドバイスや視点を高く評価します。私もエキスパートレビューとユーザー入力を組み合わせて、どの方法を選択するかに熱心に取り組みたいと思っています。

私のオプション:私が検討している最も簡単な方法は、もちろん3つのレベル(貧しい人々/赤/ 0、平均/黄色/ 1良い、緑/ 2)です。もちろん、5つのレベルのクラシックリッカートスケールがあります(非常に負/ 1、負/ 2、中立/ 3、正/ 4、強い正5)。他にも多くの評価システム(親指の上下)と、いくつか挙げると10ポイントの評価システムがあります。それらを比較する方法を教えてください。私はさまざまなアンケートにさまざまな評価システムがあることを知っているので、どれを選択するかにはベストプラクティスが必要だと思います。

私はそれぞれの賛否両論についてどのように考えるかについての参照または説明を探しています-評価スケール-さまざまな理由でさまざまなポイントでさまざまなスケールを使用し、体系的で理由がありたい私の選択。私はこれが高レベル/抽象的であることを知っています。私はそれ自体で答えを探しているのではなく、これを考えるのに役立つ方法と、そうするために使用できる基準/概念を探しています。会話を効果的に組み立てるために、いくつかのアイデアを同僚に伝える前に、もっと情報が欲しいです。考え?

3
Shlomo Goltz

私が理解しているのは、最初に、どのタイプのメトリックまたはKPIを定義し、どのタイプのスケールで決定できるかに基づいて追跡することです。 userzoomが "行動"と "態度"の2種類のKPIを推奨し、それに応じてスケールを添付する方法が気に入っています。私の会社では、これらを異なる方法で呼び出す/呼び出していますが、あなたはそのアイデアを理解しています。

信頼区間、エラーのマージンとは何かを理解するようにしてください。

Userzoomによる行動指標の例は、タスク成功:通常%で表されます。通常、代表的なユーザーのグループには、タスクの成功を明確に定義した現実的なタスクのセットが与えられます。

10人のユーザーのうち8人がタスクを正常に完了し、2人が失敗した場合、「タスク成功」は80%になります。サンプルサイズが10と小さいため、90%の信頼度での「エラーのマージン」は約+ -25になります。これは、「タスクの成功」率が55%から100%の間にあることを90%確信していることを意味します。

ただし、100人のユーザーのうち80人が特定のタスクを正常に完了した場合、「タスクの成功」率は依然として80%ですが、「エラーのマージン」は約8%です。一般的に言って、これは「タスク成功率」が72%から88%の間のどこかにあることを90%確信していることを意味します。サンプルサイズが大きいほど、「エラーのマージン」は小さくなります。

態度について

ネットプロモータースコア(NPS)、システムユーザビリティスケール(SUS)、SUPR-Q(SuperQと発音)、顧客満足度(CSAT)などのいずれかを使用できます。数学を理解するためにそれらを調べてください。

お役に立てれば。詳細はこちら> https://www.userzoom.com/user-experience-research/top-ux-measurements-key-performance-indicators-usability-metrics/

1
Saif Mohammed

「私は、それぞれの長所と短所をどのように考えるかについての参照または説明を探しています-評価スケール-異なるポイントでは異なるスケールを使用します」

あなたはすでにこれを知っているかもしれませんが、私を見つけました:結果を分析するときは、しわに注意してください:意味のあるラベルをスケールに追加する場合:非常に良い、良い、中立、悪い、非常に悪いなど、多くの人がそれを考慮します数値スケール(1〜5)を付けていても、間隔/連続ではなく序数としてのデータであり、非常に良いことと良いこと、良いことと中立的なことの違いは同じではないという議論があります。したがって、さまざまな分析方法が必要です。

http://blog.minitab.com/blog/adventures-in-statistics-2/best-way-to-analyze-likert-item-data%3A-two-sample-t-test-versus-マン・ホイットニー

1
mgraham

システム全体の使いやすさのためのSUS

一般的なユーザビリティ調査では、 システムユーザビリティスケール が適切に機能します。これには長い歴史があるため、一般化された製品タイプでも、予想される基準に対してベンチマークを行うことができます。 「すべてポジティブ」なバリエーションを使用していますが、得られるスコアは同じです。

詳細のイベントトラッキング

ユーザーが何を考えているのかを尋ねるのは面白く、時々便利ですが、実際の行動以外に何もわかりません。実際の日常のシナリオで観察される機能のエンゲージメントやタスクの成功率などのイベントパターンは、ゴールドです。

フィーチャーを設計するときは、プロトタイピングであろうとプロダクションであろうと、成功の目標は常にあるはずです。次の重要な質問を自問してください。

機能の成功指標に関連するユーザビリティ指標は何ですか?

プロジェクトが「着陸した」と見なされ、成功した場合は、これらのメトリックを忘れないでください。継続的な製品モニタリングのためにダッシュボードに実装できるヘルスインジケーターのカタログを作成します。

これは論争の的となるかもしれません…
ユーザビリティの問題が成功の指標に影響を与えない場合、問題にはならない可能性があります。

0
plainclothes