[UX리서치/UXR] ❷ 정량 사용성 평가(UT/Usability Test) :: 수집한 정량 데이터는 어떻게 활용하죠?

2023. 4. 21. 21:49UX 아티클 ✏️/② UX 리서치

 

✔️ 이 글에서 얻어갈 수 있는 내용
1. 정량 UT는 어떤 목적을 갖고 진행되는 걸까?
2. 정량 UT는 어떻게 진행할까?
3. 정량 UT로 수집된 데이터는 어떻게 해석하고 활용할 수 있을까?

 

 

지난 아티클에서 사용성 평가(Usability Test)의 개념과 종류에 대해 살펴보았다.
우리는 대면으로 진행하는지, 비대면인지, 모더레이터가 있는지 여부에 따라 UT의 종류를 구분하기도 하지만, 가장 흔히 구분하는 방법은 수집하는 데이터의 목적과 성질에 따른 구분이 아닐까 싶다. 이번 글에서는 정량, 정성 UT 중 전자에 초점을 맞춰 설명을 해보고자 한다.

구글에 '정량 UT'를 검색했을 때 얻을 수 있는 국문 정보가 많이 없는 것이 항상 아쉬움으로 남았는데, 이번 기회에 나도 공부하며 글을 정리해 본다.

 

UX 리서치 사용성 평가(Usability Test) 시리즈
1편. [UXR] 사용성 평가(Usability Test) - ❶ 개념/테스트 종류 -
2편. [UXR] 사용성 평가(Usability Test) - ❷ 정량 UT-👈👀 now
3편. [UXR] 사용성 평가(Usability Test) - ❸ 어떤 표현과 단어로 태스크를 요청할까? -
4편. [UXR] 사용성 평가(Usability Test) - ❹ UT는 어떤 태스크로 구성해야할까?-
5편. [UXR] 사용성 평가(Usability Test) - ❺ UT 전, 안내하기 - 
6편. [UXR] 사용성 평가(Usability Test) - ❻ 사용자 실제 데이터로 사용성 평가하기-
7편. [UXR] 사용성 평가(Usability Test) - ❼ UT 참여 유도-

 

 


 

정량 UT... 그게 뭔데?

 

정량 UT는 말 그대로 정량 데이터를 수집하기 위한 목적을 갖고 진행되는 사용성 평가를 의미한다. 다수(20~40명 권장)의 참가자를 대상으로 진행되기 때문에 굉장히 객관적이고 높은 설득력을 갖고 있는 리서치 방법 중 하나다.

정량 데이터는 숫자이기 때문에 측정해야 하는 지표(metric)를 명확히 정의한 후 리서치를 진행해야 하는데, 사용성 평가에서 수집할 수 있는 데이터에는 Task Time(수행시간), Errors(오류 횟수), Success Rate(완료율), Efficiency(효율성), Learnability(학습용이)이 있다. 주관적인 감정과 후기를 수집하기보다 사용자의 수행 모습을 직접 관찰하고 측정한 정말 객관적인 데이터를 얻어낼 수 있으며 정확하게 분석(해석)될 경우 높은 신뢰도를 갖을 수 있다.

 

지표 설명
Task Time
수행시간
업무(Task) 완료에 필요한 시간
요청한 업무(Task)를 몇 분/초동안 수행하여 완료했는지
Errors
오류 횟수
사용자가 범한 실수 횟수
업무(Task)를 수행하며 잘못 클릭한 횟수는 몇 번인지 ('오류' 기준을 따로 정의함)
Success Rate
완료율
얼마나 효과적으로 완료했는지
얼마나 많은 사용자가 업무(Task)를 완료할 수 있는지
Efficiency
효율성
업무(Task) 완료에 필요한 노력의 정도
업무(Task) 완료를 위한 클릭 횟수, 화면 전환 횟수 등
Learnability
학습용이성
시간의 흐름에 따라 사용자 수행 능력의 변화

 

일반적으로 Task Time(수행시간)은 빠를 수록 더 좋은 경험이라 보지만, 산업에 따라 다르기도 하니 서비스가 속한 산업에 따라 데이터를 해석하는 것이 중요하다. 예를 들어, 게임이나 온라인 학습의 경우 느린 속도가 좋을 때도 있으니 말이다! 또, Errors(오류 횟수)는 사람마다 측정의 기준이 다를 수 있으니 사전에 '에러의 기준을 정의하는 것'이 필수다. 또 한 태스크에서 한 사용자가 너무 많은 에러를 만들어낼 경우 잘못된 평균 에러 횟수가 기록될 수 있으니, 한계치를 미리 설정해두는 것도 필요하다.



이러한 지표들은 제품의 사용성을 평가하고 현상을 파악하는데 효과적이다. 
실제로 진행했던 UT 프로젝트 에서도 사용자의 '오류 터치 횟수'나 '수행 시간' 등 정량적인 지표를 측정하여 비교/분석을 진행한 경험이 있다. 

 

출처 : https://design-tra.tistory.com/entry/UX-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EB%A1%AF%EB%8D%B0%EC%8B%9C%EB%84%A4%EB%A7%88-iOS-APP-Usability-Test

 

 


 

정량 UT는 어떻게 활용할까?

수행시간은 몇 분 정도가 되어야 좋은 사용성인가요?
오류 횟수가 몇 번 이상일 때 개선하는게 좋을까요?

.
.

사실 정량 데이터는 숫자이기 때문에 상대 비교하기위한 기준점이 없으면 해석이 어려울 수 있다.

예를 들어, UT 참여자의 80%가 과제를 완수했다고 해서 무조건 '좋은 디자인' 이라고 평가하기는 어렵다. 비교 가능한 기준점이 없기 때문인데, 정량 데이터는 수치 자체보다 기준점과의 비교를 통한 데이터 해석이 중요하다.

따라서 정량 UT는 일반적으로 사용성의 문제를 발견하여 개선하려는 목적이 아니라, 경쟁자와 비교하여 서비스의 약점을 진단하거나 개선 전(AS IS)과 비교하여 개선 성과를 살펴보는 것이 목적이다. 그래서 기준점에 비해 우리 서비스가 수행 시간이 더 오래 걸리고, 오류 횟수가 많다는 것을 알려줄 수 있지만, 사용자가 구체적으로 어떤 문제를 겪었는지에 대한 내용은 자세히 알려주지 않는다. (그래서 정량 UT 후에는 반드시 참여자의 주관적 만족도 점수를 확인하고 그에 대한 이유를 들어보는 사후 인터뷰 시간을 마련하여 정량 데이터를 보완하기도 한다.)

또한 많은 참여자를 대상으로 측정해야하기 때문에 시간과 비용이 너무 많이 든다. 하지만 정량 UT를 통해 얻은 숫자 데이터는 프로덕트의 사용성에 대한 총괄적인 평가를 제공하며 이터레이션 과정에서 타임라인 별 사용성을 추적하는데 효과적이고 선 필요성을 설득할 때 매우 중요한 근거로 사용될 수 있다.

 


 

앞서 정량 UT에 대한 설명을 세가지로 요약하면 다음과 같다.
1. 측정해야하는 지표(metric)가 명확히 정의되어야 한다.
2. 경쟁사, 산업 표준, 개선 전(AS IS) 등 기준점이 필요하다.
3. 기준점과의 상대적 비교를 통해 사용성을 진단하거나 성과를 분석한다.

 

이 세가지를 조합하였을 때 정량 UT를 가장 적절하고 효과적으로 활용하기 위한 방법은 벤치마킹(benchmarking)이다.

 


정량 UT벤치마 하기

 

벤치마킹(benchmarking)은 측정 기준이 되는 대상을 설정하고 그 대상과 비교 분석을 통해 장점을 따라 배우는 행위를 말한다. 여기서 말하는 벤치마킹은 참고할 레퍼런스 화면을 '따라 배운는 행위'를 의미하는 것은 아니다. '측정 기준이 되는 대상과 비교 분석'한다에 더 초점을 맞춰보자. 즉, 디자인의 각 버전을 정량적으로 평가하고 이전 버전과 비교하는 이 프로세스 자체를 벤치마킹 이라고 부른다.

디지털 환경에서 UX 벤치마킹을 진행하면, 기준이 되는 시점(과거 정량 UT 데이터)을 살펴보며 시간 경과에 따른 UX 개선 사항을 추적할 수 있고, 경쟁사와 비교 가능하고 비즈니스 목표에 어떻게 기여하는지 등의 디자인 ROI(Return On Investment)를 측정할 수 있다.

 

NN/g 예시

벤치마킹(비교) 대상  
우리 서비스(이전 버전) - 개선 성과 분석
- ROI 측정
- 2019년 평균 구매 시간을 58초 였지만,
- 최근 개선 후 평균 구매 시간은 43초 입니다.
경쟁사 - 서비스 포지셔닝
- 개선 사항 분석
- 우리의 CS 상담 및 도움/지원 성공률은 86%인 반면
- 경쟁사는 62%로 상대적으로 낮습니다.
산업 표준 - 서비스 포지셔닝
- 개선 사항 분석
- 호텔 서비스 계정 생성에 대한 평균 사용성 등급은 7점 만점에 5.3점입니다.
- 상위 6개 호텔 웹 서비스의 평균 사용성 점수는 6.5점이었습니다.
이해관계자가 설정한 목표 - 목표 진척 정도
- 디자인 가치 입중

- ROI 계산
- 현재 서비스의 2달(8주) 리텐션 유저는 8%지만 
- 이해관계자는 최소 15%를 목표로 합니다.

 

 

벤치마킹은 UX의 전반적인 사용성을 평가하는데 도움이 된다.
(절대 문제를 어떻게 해결할지 힌트를 발견하기위해 진행하는 것이 아님!!!)

프로덕트나 서비스의 특정 버전의 경험을 관찰하여 개선요소를 도출하는 단편적인 분석이라기보다는 한 이터레이션 주기가 끝난 후에나 다음 주기가 시작되기 전 진행되는 UX에 대한 종합적인 분석 평가에 가깝다. 벤치마킹을 위한 정량 UT는 일회성으로 진행되지 않는다. 얼마나 자주 정량 UT를 통한 벤치마킹을 수행할지는 팀이 결정해야 하지만, 대게 정량 UT는 비용적/시간적 한계로 1년에 한 번 진행하는 편이다.

매년 반복적으로 정량 UT를 진행하고, 사용성을 평가하기 이해서는 다음과 같은 작업이 필요하다.

 


 

1. 측정 태스크(Task)와 지표(Metric) 정의

사용자가 서비스에 들어와 완료하는 주요 태스크(Task)가 무엇인지를 고려하여 5~10개의 측정 태스크(Task)를 정의한다. 예를 들어, 스마트 스피커 앱이라면 '새 스마트 스피커 기기를 기기에 등록해보세요'가 측정할 태스크 중 하나가 될 것이다.

그렇다면 무엇을 측정할 수 있을까? 장기간에 걸쳐 반복적으로 측정되어야 하는 지표인 동시에 성과를 입증하기 위한 수단으로써 활용되기 때문에 조직의 핵심성과지표(KPI)에 맞는 지표를 선택하는 것이 좋다. 일반적으로 2~4개 정도의 지표를 정의한다. 서비스 성격이나 태스크마다 다르겠지만, 앞선 스마트 스피커 앱이라면 Efficiency 효율성, Errors 오류 횟수, Success Rate 완료율 을 기준으로 사용성을 측정할 수 있다.

정량 UT에서 태스크를 정의할 때 주의할 점은 작업을 수행하는 방법이 한 가지 인지 확인하는 것이다. 수행해야하는 태스크가 너무 광범위하지 않도록 사용해야하는 기능에 제한을 두거나 찾아야하는 상품을 구체적으로 설명해주어야 한다. 예를 들어, <00 상품을 '검색하지 않고' 찾아보세요>라던가 <1월 17일~1월 19일까지 ** 호텔 2인용 퀸룸을 예약하세요>처럼 말이다. 그리고 태스크에 대한 명확한 성공/태스크 완료 기준 역시 필요하다. 사용자의 성공 여부를 결정하는 명확한 작업 기준이 필요한 샘이다. 마지막으로, 태스트(Test)가 시작된 후에는 태스크(Task)를 변경해서는 안된다. 여러 참여자가 정확히 동일한 작업을 요청받아 수행하는 것이 중요하기 때문이다.

 

2. 첫 UT 진행하여 기준선(Baseline) 설정

수집할 지표를 결정했다면, 기준이 되는 비교 지표를 수집할 차례다. 이 때 같은 태스크를 부여하고 경쟁 서비스와 우리 서비스 사용 모습을 관찰해 지표를 수집할 수 있다. 예를 들어, 이커머스 서비스에서 필터를 사용해 원하는 상품을 탐색하도록 요청했을 때 A사와 B사의 Task Time 수행시간을 측정하여 기준선(Baseline)을 잡을 수 있다. 기준선(Baseline)은 개선 후 추가 UT를 진행하였을 때 성과를 파악하는 기준이 될 수 있다.


스마트 스피커 앱의 기준선(Baseline) 

  개선 전(YY.MM.DD) 개선 후(YY.MM.DD)
Success Rate 완료율 70% -
Errors 오류 횟수 AVG 3.4회 -
Efficiency 효율성 AVG 터치 6.7회 -

 

3. 제품 개선 > 추가 데이터 수집(UT 진행)

개선 후(혹은 다음 해에) UT를 다시 진행한다. 이때에도 동일한 태스크와 지표를 측정한다. 다만, 이전 테스트에 참여했던 사용자가 아닌 참여자를 대상으로 테스트를 진행하는 것이 좋다.

스마트 스피커 앱

  Baseline(YY.MM.DD) 개선 후(YY.MM.DD)
Success Rate 완료율 70% 95%
Errors 오류 횟수 AVG 
3.4회
AVG
0.2회
Efficiency 효율성 AVG 
터치 6.7회
AVG 
터치 5.8회

 

4. 결과 해석 및 ROI 계산

마지막으로 수집된 데이터를 비교하고 결과를 해석하여 성공을 추적하고 개선의 효과를 입증할 차례다. 이익, 비용, 직원 생산성 또는 고객 만족도와 같은 핵심 성과 지표(KPI)에 연결하여 ROI를 계산해도 좋다. 스마트 스피커 앱 사례라면, 효율성은 유사하지만 오류횟수나 완료율에서 유의미한 개선의 효과를 발견할 수 있었다. 

벤치마킹은 UX 조직의 노력을 전반적인 목표를 설정하고 결과를 입증하는 최고의 도구다.

 


 

요약해보자. 서두에서 [이 글에서 얻어갈 수 있는 내용] 3가지를 안내햇다.


1. 정량 UT는 어떤 목적을 갖고 진행되는 걸까?
- 한 이터레이션 주기가 끝난 후에나 다음 주기가 시작되기 전 진행되는 UX에 대한 종합적인 분석 평가를 위해 진행
- 개선요소를 도출하는 단편적인 분석하는 것이 아님


2. 정량 UT는 어떻게 진행할까?
- 참여자에게 수행해야하는 태스크를 전달하고 직접 관찰하며 오류횟수, 성공까지 소요되는 시간 등을 정량적으로 측정
- 태스크가 너무 광범위하지 않도록 사용해야하는 기능에 제한을 두거나 찾아야하는 상품을 구체적으로 설명해주어야 함
- 측정 데이터는 조직의 핵심성과지표(KPI)에 맞는 지표를 선택


3. 정량 UT로 수집된 데이터는 어떻게 해석하고 활용할 수 있을까?
- 정량 UT를 통해 벤치마킹 데이터를 수집할 수 있는데, 벤치마킹은 UX의 전반적인 사용성을 평가하기위해 사용
- 경쟁자와 비교하여 서비스의 약점을 진단하거나 개선 전(AS IS)과 비교하여 개선 성과를 살펴보는 것이 목적
- 사용자가 구체적으로 어떤 문제를 겪었는지에 대한 내용은 자세히 알 수 없음
- 정량 UT를 통해 얻은 숫자 데이터는 프로덕트의 사용성에 대한 총괄적인 평가를 제공
- 이터레이션 과정에서 타임라인 별 사용성을 추적하는데 효과적이고 개선 필요성을 설득할 때 매우 중요한 근거로 사용

 

끝.

 

UX 리서치 사용성 평가(Usability Test) 시리즈
1편. [UXR] 사용성 평가(Usability Test) - ❶ 개념/테스트 종류 -
2편. [UXR] 사용성 평가(Usability Test) - ❷ 정량 UT-👈👀 now
3편. [UXR] 사용성 평가(Usability Test) - ❸ 어떤 표현과 단어로 태스크를 요청할까? -
4편. [UXR] 사용성 평가(Usability Test) - ❹ UT는 어떤 태스크로 구성해야할까?-
5편. [UXR] 사용성 평가(Usability Test) - ❺ UT 전, 안내하기 - 
6편. [UXR] 사용성 평가(Usability Test) - ❻ 사용자 실제 데이터로 사용성 평가하기-
7편. [UXR] 사용성 평가(Usability Test) - ❼ UT 참여 유도-

 

 

 

 

 

더보기

📍 참고 자료
-----------

 

Measuring the ROI for UX in an Enterprise Organization, Part 1 :: UXmatters

Recruiting Magic In an enterprise environment, recruiting even small numbers of participants for qualitative research can be a real struggle. … Recruiting the potentially hundreds of respondents we would need for a quantitative study would require a comb

www.uxmatters.com

 

Measuring UX and ROI | Full Day Training Course by NN/g

Full day course taught at Nielsen Norman Group's UX Conferences. Learn how to use quantitative metrics to benchmark your products and demonstrate return on investment for your design projects.

www.nngroup.com

 

Quantitative vs. Qualitative Usability Testing

Qualitative research informs the design process; quantitative research provides a basis for benchmarking programs and ROI calculations.

www.nngroup.com

 

Benchmarking UX: Tracking Metrics

Quantitatively evaluate a product or service’s user experience by using metrics to gauge its relative performance against a meaningful standard.

www.nngroup.com

 

사용성 평가에 정량 데이터 활용하기

신입 UX/서비스 디자이너의 사용성 비교 평가 도전기 2편 | 1. 들어가면서 이번 글에서 데이터 분석에 유용한 통계 개념과, 정량 UX 리서치를 할 때 생기는 의문점을 정리했습니다. 하단의 참고자

brunch.co.kr

 

사용자 경험 측정 (Measuring User Experience) - ppt download

목차 4장. 수행(Performance) 메트릭스 Task Success, Time-on-Task, Errors, Efficiency, Learnability

slidesplayer.org

 

7 Steps to Benchmark Your Product’s UX

Benchmark your UX by first determining appropriate metrics and a study methodology. Then track these metrics across different releases of your product by running studies that follow the same established methodology.

www.nngroup.com

 

 

 

 

728x90