私は、エンタープライズアプリケーションの操作性の向上に焦点を当てている組織で働いています(HRアプリケーションおよびその他のアプリケーションは、人々が仕事を完了するために使用せざるを得ません)。
私が見つけようとしているのは、満足度と時間の両方の面で現在の状態からの改善を示す一貫した方法であり、簡単にお金に変換できます。
さらに、これらのアプリケーションの多くは、タスクを完了するために特定のドメインの知識を必要とするため、標準的なメトリックでユーザビリティの改善を測定することは困難です。たとえば、財務アナリストだけが使用するアプリを考えてみましょう。すでに存在する何かについて、良い時間、タスク、成功率のデータを取得するにはどうすればよいですか?テストするすべての人々が、ドメインの知識とシステムの専門知識を持っていて、仕事を完了します(たとえそれが難しい場合でも)。システム自体は決して彼らの仕事の一部ではなく、決してそうではないので、私は誰かを引っ張って彼らにテストすることはできません。
ドメイン固有のアプリケーションの定量的な改善を示すために私はどのようなアプローチをとりますか、ユーザーベースはすべて、現在のバージョンの使用方法を知っている(そして、習熟するために必要な回避策を開発した)一方で、同じタスクを達成するための新しい展開?
あなたが求めているもののいくつかは単に存在しないのではないかと思います。満足は感情です。正確に測定することはできません。 「フレッドはウィルマを4.18倍愛していて、バーニーはベティを愛している」と言っているようなものです。数字さえあればもっと簡単に仕事ができることは知っていますが、心理測定はそのようには機能しません。
満足度を測定する近道もありません。特定のユーザーグループがシステムにどのように反応するかを知りたい場合は、参加者の実際のユーザーを使用して、従来のメトリックを適用する必要があります。ファイナンシャルアナリストに現在のレートで時間を支払う必要があることが判明した場合、ユーザビリティの実験は非常に高価になりますが、それを回避する方法はありません。
純粋な満足度を測定するために、使用できる尺度と尺度がいくつかあります。 SUSは業界で非常に人気があり、単純なスコアで終わります。DeLoneMcLean、QUIS、PSSUQなどの他のものも機能します。数値が必要です。ただし、これらの計測器のほとんどでは、結果の精度が精度よりも高いことに注意してください。つまり、ある間隔に正規化された数値になり、1〜100に正規化されている場合は整数になります。しかし、79で測定するシステムが76で測定するシステムよりも優れていると確実に言えるとは限りません。また、異なるユーザーグループ、異なるタスク、または異なるコンテキストでは、数値はさらに比較可能性が低くなります。数値を測定できます。これは、実行できる最善の方法ですが、小さな増分変更のみを行っている場合、または全体的なユーザビリティがすでに非常に高いか、まだ非常に低いので、ニースのクリーンな傾向が見られる可能性は低いです。そして、これはあなたがアプリケーションを改善する上であなたの仕事に失敗している、それは単に人間の感情を数で表すことができないことを意味します。
数値がはるかに比較可能であるため、有効性と有効性の測定はより簡単です。繰り返しますが、実際のユーザーが必要であり、現実的なタスクを与える必要があります。他の方法で行うと、かなり意味のない数字がたくさん表示されます。
学習可能性を測定することは、アプリケーションをすでに知っている人々の満足度を測定することよりも困難です。アプリケーションに対してナイーブなユーザーグループ(ただし、予想されるユーザーがドメインにメンタルモデルを持っている人)を見つけてテストし、トレーニングして、もう一度テストする必要があります。次に、2つのテストのメジャーを比較します。少なくとも最初は、さまざまなセッションでこれを行う必要があります。両方で十分なトレーニングと使用を行います。アプリケーションが非常に単純で、ユーザーがそれを学ぶのに通常のユーザビリティテストセッション以上のものを必要としないと確信している場合、またはパフォーマンスのレベルに本当に関心がある場合にのみ、1つのセッション内の進行状況を測定するのが意味があります。長時間使用した後ではなく、短時間の暴露後。しかし、2つ目は、プロ用に作成されたアプリケーションではまれです。
Grossmanらは、学習可能性測定の非常に素晴らしい調査を行いました。私は論文全体を読むことをお勧めしますが、完全を期すために、彼らが文献で見つけた学習可能性測定のリストを次に示します。
タスクメトリック:タスクパフォーマンスに基づくメトリック T1。タスクを最適に完了したユーザーの割合。 T2。何の助けもなくタスクを完了したユーザーの割合。 T3。特定の時間枠の後で最適にタスクを完了する機能。 T4。特定の時間間隔で発生したタスクエラーの減少。 T5。ユーザーが特定のタスクを正常に完了するまでの時間。 T6。ユーザーが時間枠内で一連のタスクを完了するまでの時間。 T7。審査員によってスコアリングされた、タスク中に実行された作業の品質。 コマンドメトリック:コマンドの使用に基づくメトリック C1。トレーニング後のコマンドの成功率。 C2。特定の時間間隔で使用されるコマンドの増加。 C3。時間の経過とともにコマンドが複雑になる。 C4。ユーザーが知っているコマンドの割合。 C5。ユーザーが使用したコマンドの割合。 メンタルメトリック:認知プロセスに基づくメトリック M1。特定の時間間隔で平均思考時間を減らします。 M2。使用中の脳波パターンのアルファ波とベータ波。 M3。時間経過に伴うチャンクサイズの変化。 M4。メンタルモデルアンケートの事前テストと事後テストの結果。 主観的指標:ユーザーのフィードバックに基づく指標 S1。学習可能性に関連するユーザーコメントの数。 S2。学習性アンケートの回答。 S3。 26のリッカートステートメント。 ドキュメントメトリック:ドキュメントの使用に基づくメトリック D1。特定の時間間隔で使用されるヘルプコマンドを減らします。 D2。タスクを開始するまでのドキュメントの確認にかかった時間。 D3。ドキュメントを確認した後、タスクを完了する時間です。 ユーザビリティメトリック:ユーザビリティの変化に基づくメトリック U1。時間の経過に伴う「使用品質」の比較。 U2。初心者ユーザーと専門家ユーザーの「使いやすさ」の比較。 ルールメトリック:特定のルールに基づくメトリック R1。システムの説明に必要なルールの数。
Grossman、T.、Fitzmaurice、G.&Attar、R.(2009)。ソフトウェアの学習可能性の調査:指標、方法論、およびガイドライン。コンピューティングシステムにおけるヒューマンファクターに関する会議(pp。649–658)。