ユーザーが望むより良いUIについて決定を下すために、ツールのUIのA\Bテストをセットアップする必要がある状況にあります。
このツールはデスクトップアプリケーションです。つまり、URLリンクで使用状況を追跡できません。ユーザーのデスクトップのファイルにKPIメトリックを保存してから収集する必要があります(もちろん、アクセス許可を求めます-ここでは問題になりません)。
ツールは非常にカラフルで、多くの機能を備えたリッチなUIを提供します。
さて、私は今、どのメトリックを収集すべきかを考えていますか?私が考えることのいくつか:
他にどのようなKPIおよびメトリックを測定する必要がありますか?
適切な指標は、アプリの使用目的に関連し、それが何を意味するかを明確に判断できるものです。あなたは簡単に自分をだましてしまう可能性があるので、複数の解釈を持つメトリックは避けたいです。ユーザー自身の言葉(?)でフィードバックを得る機会がないと思います。これは、あいまいさの最も少ないメトリックです。
理想的には、測定したい使いやすさおよび(可能であれば)enjoyment/satisfaction。後者は、ユーザーの量/頻度choosesアプリを使用する;それが人々のビジネスアプリである場合、[]を使用する場合、ユーザーに尋ねずに満足度を測定することはできません。使いやすさはもっと簡単なはずです。ユーザーが何かを実行したいと思ってから、実行されるまでの時間を測定するだけです。
たとえば、経費報告書の記入がタスクの場合、開始から終了までの時間の中央値を測定できます。一部の範囲外の結果は非常に長くなり(ユーザーが電話で中断された)、他の結果は非常に短い可能性があります(ユーザーがフォームに正しく入力しなかった)。後者は、それ自体が有用なメトリックになる可能性があります。たとえば、タスクが平均よりも小さい複数の標準偏差をとった回数を記録できます。
そのメトリックは、予測できない長さのタスク(手紙を書くなど)にはあまり役立ちません-バージョンBで2倍かかる場合、それはバージョンBがとても楽しいためか、使いにくいためですか?
全体的な満足度/エンゲージメント/エンジョイを測定するための最良の測定基準は、アプリケーション(またはアプリケーションの一部)を使用することで、それを再度使用する可能性が高くなるか低くなるかということです。これはStatistics stackexchangeで質問する価値があるかもしれませんが、大まかなアプローチは、アプリケーションの起動ごとに、Y =(最後の起動からの時間)をX =(過去1週間のこのユーザーの合計使用時間)に対してプロットすることです。 )。このプロットの 回帰線 を使用する場合、その傾きは、経験がどれだけポジティブかに比例するはずです。
満足度は測定する価値があるというボタトに同意します。そのルートに進みたい場合は、調査やその他の方法を使用して、競合他社やベースラインと比較できるネットプロモータースコア(NPS)を調べることができます(つまり、定期的に収集して傾向を監視します)。 。 NPSは完璧ではありませんが、ビジネスコミュニティでは満足度の尺度として高く評価されており、そのため、NPSを提示するとより重要になります。
そうは言っても、A/Bテストでは満足度を測定することはできません。そうは言っても、Esinとbobtatoが指摘したように、それはまだアプリケーションのコンテキストに依存します。ユーザーが定義されたリストを通じて患者の状態を文書化する医療アプリケーションの場合、おそらく最良のKPIは、タスク完了までの時間ではなく、少なくともタスク完了までの時間に加えて、ミスの数(少ない方が良い)です。
最終的にタスクの完了時間を測定する場合、Googleアナリティクスでこれを行うには、ユーザーがタスクを「開始」したときのイベントと、ユーザーが終了したときに別のタイムスタンプを持つ別のイベントにタイムスタンプを渡します。次に、その間の時間を測定し、さまざまなバージョンの長さを比較します。
また、インタビューを行い、ユーザーの最終目標と感情的な目標を理解することを検討する必要があります 顔について で、それらの目標にどの程度貢献しているかを測定できるかどうかを確認します。たとえば、私は多くの事務医療ユーザーと協力しており、彼らは生産性サルではなく、患者のケアに貢献していると感じたいと思っています。したがって、ネットプロモータースコアに加えて私のKPIの1つは、アプリケーションが患者のケアの向上にどの程度役立つかについての定期的な調査の質問です。彼らがそれがうまくいっていると思うなら、私たちは正しい感情を作り出しました。患者のケアを改善するのに役立つとは思わないが、より効率的になると考えている場合は、基盤をカバーしている可能性がありますが、実際には十分に機能していません。
可能であれば、常に定量的方法と定性的方法の組み合わせを使用するようにしてください。一般に、A/Bテストはすべて量的測定に関するものですが、「数が嘘をつかない」としても、それはまだだまされている可能性があります。
たとえば、実行時間が短いほどUXが向上するとの仮定は、必ずしも成り立つとは限りません。一般に、実行時間が短いほど使いやすさが向上し、多くの場合、使いやすさは優れたユーザーエクスペリエンスを提供するためのイネーブラーと見なすことができると信じることはおそらくほぼ妥当ですが、実際には単独で使用することはできず、ルールには例外があります。
たとえば、ゆるい鳥はユーザビリティの観点からすさまじかった。とても「使えない」ので、ほとんど弾けませんでした。それでも、それは人々にアプリを何度も何度も使用させた不穏な中毒性のある体験(「良い」UXとは何ですか?)を伝えることに成功しました...
打ち上げ回数も同様です。アプリの特定のビルドがクラッシュし続けたため、ユーザーは常にアプリを再起動する必要があったのでしょうか?または、他の要因が結果にバイアスをかけている可能性があります。
私のポイントは、可能性のある問題のある領域を特定するためにいくつかの定量的KPIを設定することは良い考えですが、実際のユーザーまたはテストグループの少なくとも少数のサンプルを調査する能力がないと、人々の真実を知ることはできません本当にあなたの製品を考えてください。
A/Bテストを設定してから、A/Bテストが問題となる可能性のあるトピックについて、一部のユーザーを調査するためのアクセス権を取得してください。
A/Bテストでは、実行時間と起動よりもタスクの完了に重点を置きます。たとえば、サインアップ、ドキュメントを保存するユーザー、ゲームの最初のレベルを完了するユーザー、追加サービスを購入するユーザーなどを測定できます。
さらに、保持率についても検討します。ユーザーはサインアップしたばかりですが、XX日以内に再度ログインしますか?
どこから始めますか?全体的なユーザーエクスペリエンスを構成するコンポーネントがいくつかありますが、いくつかのメトリックで試して合計することは非常に困難です。ただし、開始するには、スコープを絞り込んでギャップを埋めるのに役立ついくつかのアイデアを次に示します。
UX =ユーザビリティ+ユーティリティ+エンゲージメント+その他の要素?
例を挙げれば、ユーザビリティはデザインの包括性から多くのことをカバーでき、アクセシビリティもカバーできるため、ドリルダウンできる多くの詳細レベルがあることがわかります。
「その他の要因」はどうですか?まあ、人々が言及する最も一般的なことは、デザインの美学です。これはしばしば主観的ですが、それでも特定の定性的な方法で測定できます。次に、信頼性、信頼性、信頼性、セキュリティなど、使いやすさ、ユーティリティ、エンゲージメントを組み合わせたものがあります。
有意義なユーザビリティテストは、ユースケースシナリオから始める必要があります。そのコンテキストでのみメトリックを推測できます。
「このアプリケーションの使いやすさについて教えてください。」非常に一般的な質問です。それは理にかなっており、テストで尋ねられるべきですが、測定の影響を受けにくいです。
「アプリケーションでファイルの新しいインスタンスを保存するのが簡単だと思われるのはどのくらいですか?」分析と測定がそれぞれより具体的で簡単なものです。