私のクライアントは、システム(SUSとSEQ)の使用感をスタッフに測定してもらいたい一連のベンダーのデモを実行しています。
当初は一貫した評価者のグループを求めていましたが、悲しいことに「スケジュールの誤動作」のため、これは不可能です。
リスクを軽減する方法について何か提案はありますか?
それどころか、すべての調査で、請負業者やリーダーシップではなく、実際のユーザーグループをテストで使用することがいかに重要であるかが強調されました。
それにもかかわらず、あなたの計画した研究は何もないよりはましだと思います。すべてのユーザビリティスペシャリストは、ある種の「クイックでダーティなテスト」、つまり「自分でやる」というアドバイスを持っています。そして、これらのアドバイスは通常、通りからランダムに選ばれた人を含みます。
結果を分析するときは、このバイアスに注意する必要があります。
結果を検証し、結果を実際のユーザーグループと比較するには、小さなサンプルを選択して相関分析を実行します。
実際のユーザーグループのsomeデータを取得できた場合は、たとえば、次のように相関を計算できます。エクセル:
列Bと列Cは、SUSからの平均の調査結果です。列DとEは比較可能な尺度です(つまり、質問1、3、5、7、9の場合:D = B-1とE = C-1、質問2、4、6、8、10の場合D = 5 -BおよびE = 5-C)。 C14の相関式はおそらく「= CORRELATION(D2:D11; E2:E11)」です(ノルウェー語版のMS Officeエディションを持っています)
高い相関関係は、おそらく両方のグループで同じ結果が得られることを示しています。
ヨルンの答えに基づく:統計分析は、質の高いユーザーの小さなグループを他のユーザーと比較するのに役立ちます。どのテストが最も適切かは、サンプルサイズと、データの性質(正規分布、等分散など)について安全に作成できる仮定に依存します。
SUSで2つのグループのスコアを比較するには、合計スコア(0〜100スケール)から始めます。スコアがほぼ正規分布しているかどうかを確認し(ヒストグラムで視覚的に、またはKolmogorov-SmirnovやShapiro-Wilkなどの統計検定を使用して)、両方のグループの平均と標準偏差を計算します。あなたの帰無仮説は、スコアが両方のグループで同じであり、2つのグループ間のスコアの違いは偶然に起因する可能性があるというものです。分散が等しいと想定できる場合は、 サンプルサイズが等しくない独立したサンプルのt検定 を使用できます。それ以外の場合は、分散が等しくない場合のバリアントを使用します ウェルチのt検定 。これは、任意のスプレッドシートまたは統計プログラムで実行できます。または、 これはグラフパッドから などのオンライン計算機のいずれかを使用できます。
計算例:グループA(10人の実際のユーザー):平均68、標準偏差17、n = 10グループB(40人のランダムな人々):平均76、標準偏差19、n = 40
対応のないt検定のp値は0.23(有意ではない)であるため、平均値の差は偶然によるものと考えられます。
2つのグループに違いがないことが結果で示されている場合は、データが実際のユーザーの発言を正確に表しており、さらに分析するために2つのグループを組み合わせることができると考えるのが安全だと思います。
そうでない場合は、データを少しマッサージしてみてください。 SUSは、(項目4と8の)学習性と(残りの項目の)使いやすさの両方を測定することが知られています( research に従って)。項目4と8を使用して、ユーザビリティディメンションのみのテストを実行します。
上で書いたものはすべて、テストのスコア以外に追加のデータがない場合のものです。人口統計を収集できる場合(セッション番号に関する基本的な情報でさえも価値があるかもしれません)には、もっと多くの可能性があります。