私のチームは、SUSを使用してアプリケーションを相互にベースライン化するために使用し始めました。WebアプリケーションおよびWebサイトへの質問の関係についていくつかの疑問があります。時々、研究参加者は質問を笑ったり、彼らが参加した調査のコンテキストに応じて適切に回答する方法がわからない。
混乱を引き起こすいくつかの質問:
1. I think that I would like to use this system frequently.
自動車保険の場合、保険契約は6か月間続くので、しばしば相対的な期間ですか?毎日必要なときに見積もりを取得するつもりはありません。
5. I found the various functions in this system were well integrated.
これは、タスクが1つしかないWebサイト(自動車保険の見積もりを取得するなど)とどのように関連していますか?
10. I needed to learn a lot of things before I could get going with this system.
これは、システムや製品(自動車保険)について多くを学ぶ必要があったことを意味しますか?
SUSを使用した他の経験と、参加者と利害関係者が結果をどのように認識しているか?
SUSの原作者として、私はこの種のクエリをよく見ます。私が最初に開発したという事実に基づいて、ここでトレードオフをする必要があると思いますSUS 25年前に実行されている統合オフィスシステムの開発のためのユーザビリティエンジニアリングプログラムに取り組んでいたときVAX.
1)この用語は、特定の現代のテクノロジー(ウェブサイト、携帯電話、何を持っているか)に特に関連しているようには見えない場合があり、人々はこれを、当初評価に使用されたシステムの種類と事実に単純に起因する傾向がある現在使用されている種類のシステムやアプリケーションとは異なること。個々のアイテムはそれ自体では意味がないことになっているため、とにかく重要ではないいくつかの点で。それらは、使用可能なシステムと使用できないシステムの極端な例が提示されたときに、正と負の両方の最も極端な応答につながる質問であったアイテムに基づいて、元のはるかに大きなアイテムのプールから選択されます。 (したがって、理論的には、極端なユーザビリティ特性が低いシステムの例は、より中間的な応答につながるはずです)。これらすべての質問の合計は、知覚される使いやすさの一般的な尺度につながります。したがって、個々の項目の表現に同意できない場合がありますが、それら自体には診断上の価値があるとは限らず、特定の目的で使用することを目的とした特定のシステムの特定の機能に関連しているとは限りません。そのような情報が必要な場合は、それらの特定の機能に対応するアンケートを作成する必要があります。しかしながら.....
2)SUSは25歳であり、無料で入手できるようになったため、多くのユーザビリティ評価で取り上げられて使用されています。(格安です!しかし、私は非常に多くの人に嬉しく思います持っているそれは有用であるとわかりました。そのため、その使用法と規範データの本体について豊富な情報があります。その信頼性を調べ、規範データを収集するいくつかの優れた研究が行われています-特にタリスは優れています前者の側面に関する論文と、BangorとKortumは、10年以上にわたってSUSの使用に関するデータを収集しています。
だから私にはあなたに選択肢があるようです。評価する特定のテクノロジーに関連する用語を使用する独自のアンケートを考案できます。比較できる他の研究からの大量の経験とデータはありません。特定のテクノロジーに基づくシステムまたはアプリケーションの1つのバージョンを後継バージョンと比較するだけの場合は、それで十分です。しかし、たとえば、Webベースのアプリケーションを、別のテクノロジーに基づくアプリケーションと比較したいとしますか?次に、SUSの場合と同じ種類の問題が発生し始めます。
SUS完璧なツールであると主張したことはありません。(私はdid公開されたバージョンのタイトルで、それは「迅速で汚い」と言っていました)。私はそれが何年にもわたってその価値を証明していると思います、そしてトーマス・タリスやフィル・コータムのような人々(私の仕事とは完全に独立してすべての仕事をした)の努力はそれが使用する価値のあるツールであることのさらなる証拠を提供しました.
rgds
ジョン・ブルック
一般的に、SUSはWebサイトでは問題ないようです。- Tullis and Stetson 企業イントラネットの評価において他のユーザビリティ調査と比較し、SUSは他のものより優れていました。
いくつかの特定の個々のアイテムはあなたの仕事に適用できないかもしれません。これを体系的に確認するには、アイテムの応答の相関行列を作成し、問題のあるアイテムがある場合とない場合の両方で Cronbachの標準化されたアルファ を計算します。アルファがアイテムなしの場合よりも高い場合、それは明らかに他のアイテムと同じ基本的な心理的構成を測定しておらず、単純にそれをドロップする(またはテストがアルファを改善することが示されるまでそれを書き直す)ことで正当化できます。
ただし、その前に、スケールを使用するより大きなコンテキストを検討してください。ベースラインとは、後のスコアと比較することを意味します。問題のあるアイテムは、比較したい他のサイト/アプリ/バージョンに完全に適しており、主観的なユーザビリティの側面をキャプチャすることを検討してください。たとえば、おそらく5年後には、保険アプリに複数の機能が含まれるようになります(たとえば、盗難のリスクが高い自動車かどうかをユーザーが識別できるようにします)。 「さまざまな機能」項目への回答は今や至る所にあるかもしれませんが、スコアは将来の多機能バージョンと比較できるように含める価値のある有用な情報です。
個人的には、あなたが選んだアイテムはおかしく聞こえたかもしれませんが、私がユーザーだった場合、私はそれらを有用な方法で解釈したと思います。私は「頻繁に使用する」ことを代替案と比較して解釈します(たとえば、電話で見積もりを取得する)。私は、「十分に統合されている」とは、バックトラッキングやデータの再入力をほとんど行わずにサイトを簡単に移動できると解釈します(たとえば、膨大なページを経由することなく、車を指定できます)。 「たくさん学ぶ」必要がないということは、自分の入力を入力して見積もりを取得できることを意味します。はい、これにはシステムと主題の両方の学習が含まれます。つまり、リンクに選択した色がわかり、「控除可能」の意味を明確に説明できました。いいえ、それが発生した場合、低いスコアの原因となったシステムまたは保険について学ぶことが問題であったかどうかはわかりませんが、とにかく診断のために個々のアイテムのスコアを探すべきではありません。 SUS設計により、複数の心理的次元ではなく、one心理的構成のみを測定します。
うわー、ジョンブルックが現れます。涼しい!はい、あなたのツールはまだ非常に便利でUXに関連しています!
調査については、「システム」という用語を編集して調査の曖昧さをなくすことを検討して、調査が関心のある製品/機能/サービスに正確に対応するようにします。また、見積もりを取得する際に統合が適用されない場合もありますが、大規模なシステム内でのその機能の統合について質問することができます。
利害関係者によって認識された結果に関する限り、「認識されたユーザビリティ」は、より大きな一連のテストに対する完全な賛辞です。たとえば、ライブA/Bテストでは、2つの異なるデザイン間でチェックアウト時にスローされたエラーの数を比較できます。 usabilitytesting.comは、プロトタイプに使用するもので、開発/設計の機能の主要なパフォーマンスインジケーターとして重大なエラーの数を記録できます。
あなたが唯一のUX担当者であり、全体的なUXテスト戦略を提案したい場合、これらの一部は支援なしでは実現できません。そのため、これらを人員、ベンダー、または他の部門(マーケティング/ research)プロセス中。
私はSUSを使用したことがないことを前もって認めます。質問#2の場合、問題はありますか?ユーザーがこの2つを区別する可能性は低く、これをアプリケーション全体のベースラインに使用している場合、得られるのは学習曲線の主観的な尺度です。この場合、システムをそれが提示する情報から切り離すことはできないと思います。
セッションを観察していると想定していますが、リストの少なくとも半分の質問では、極端な応答を理解するために定性的な観察データが必要になると思います。
あなたのウェブサイトに1つの機能しかない場合でも、おそらくあらゆる種類のコンテンツがあります。マーケティング資料、会社について、価格プラン、利用規約など。これらすべてのものの中で唯一の機能がまだ簡単に見つかる場合は、十分に統合されています。他のコンテンツのジャングルで失われたとしても、そうではありません。 :)ユーザーはこの違いを理解し、適切に対応すると思います。
ブルック氏、私はSUSを頻繁に使用しており、ヒューマンファクタークラスには常に推奨しています。