본문 바로가기

사용자경험 | UX, User Experience

UX 평가지표? 사용성 측정지표? 어떤 것을 쓰지?

현업에서는 아이템에 대한 사용자 경험을 직접 측정하고, 수집된 데이터를 기반으로 디자인을 개선하는 일이 점점 더 중요해지고 있습니다. 근데, 처음에는 무엇으로 측정할 수 있는지 (어떤 측정지표를 쓸지), 어떻게 측정할 수 있는지 (어떤 측정 방법론을 이용할지), 수집된 데이터는 어떻게 해석해야 하는지를 감이 안 잡힐 때 있습니다.

 

전문가라면 UX 평가지표와 사용성 평가지표는 구분할 수 있겠지만, 평가지표에 따라 점점 구분선이 모호해지기도 합니다.

('평가지표'와 '측정지표'도 혼용하여 사용하지만, 개인적으로는 구분하는 것이 맞다고 생각합니다. 사용자경험이나 사용성에 대한 데이터를 수집하는 지표(metric)는 '측정지표'이고, 측정지표를 기반으로 사용자경험이나 사용성의 좋다/나쁘다를 판단하는 지표를 '평가지표'로 구분하는 것은 어떨까도 생각합니다.)

 

 

어떤 UX 평가지표를 사용하지?

UX/사용성 평가를 할 때마다 “이번엔 어떤 지표를 써야 할까?” 고민한 적 있으시죠?

대부분의 아이템이나 서비스에 대한 평가를 진행할 때, 활용할 수 있는 지표를 정리해 봅니다.

  • NPS(Net Promoter Score)
    “이 서비스를 친구에게 추천할 의향이 있나요?”라는 단순한 질문이지만, 실제 추천 행동과의 관계, 그리고 비추천 의향까지 함께 평가할 수 있다는 점이 장점입니다. 마케팅 분야에서 활용도가 높았던 평가지표이지만, 최근에는 UX평가에도 활용도가 높아지고 있습니다. NPS점수와 함께, 매긴 점수에 대한 이유도 함께 수집하여 개선 인사이트를 발굴할 때에도 많은 도움이 됩니다.
  • SUS(System Usability Scale)
    이름에서 알 수 있듯이 사용성 평가지표이지만, SUS의 10개 질의문 내용이 사용자경험에도 영향을 미치므로 SUS점수를 기반으로 사용자경험평가에도 활용하는 것이 가능합니다. 또한, 질의문 별 점수를 기반으로 아이템의 어떤 부분을 우선적으로 개선해야 하는지를 확인하기 수월한 장점이 있습니다.
  • UEQ-S(User Experience Questionnaire-Short)
    사용성(효율성, 명확성, 신뢰성 등)과 감성적 경험(흥미, 창의성, 자극 등)에 대한 8개 질의문으로 데이터를 수집하며, 아이템에 대한 전반적 인상, 사용 용이성, 즐거움, 흥미, 신뢰도 등을 빠르게 파악할 수 있습니다.
  • NASA-TLX(NASA Task Load Index)
    이름에서 알 수 있듯이, NASA에서 우주인 훈련 과정에서 개발되었던 평가지표로, 사용자가 특정 과업을 수행할 때 느끼는 인지적, 신체적 작업부하를 측정하는 다차원 평가도구입니다. 총 6개의 하위 척도(정신적요구, 신체적요구, 시간적요구, 성과, 노력, 좌절감)에 대한 점수와 각 척도의 가중치를 기반으로 작업부하를 평가할 수 있습니다.

실무에 바로 쓰는 UX 리서치 방법론

  • 설문조사
    구조화된 질문들을 통해 다수의 응답자로부터 정량적 데이터를 수집하는 방법입으로, 빠르고 효율적으로 의견을 파악할 수 있어 대규모 트렌드 분석에 적합합니다. UX평가 초반에 이슈 파악을 위해 진행하거나, 개선안에 대한 최종 평가 수행 시 활용도가 높습니다.
  • 인터뷰평가
    타겟 사용자와 1:1 또는 1:N으로 대화하면서, 사용자의 니즈와 페인포인트(needs & pain points), 행태(behavior & attitude), 사용경험 등을 탐색하는 정성적(질적) 조사방법입니다. 사용자가 가지고 있는 잠재적 니즈와 맥락을 파악하는 것에 효과적입니다.
  • 태스크기반 평가
    사용자에게 실제 사용 시나리오에 기반한 태스크를 수행하게 하고, 그 과정에서 사용성 문제점을 분석하는 평가방법이며, 여러 대안 중 수행시간, 에러율 등을 정량적으로 측정하여 최적의 대안을 선택할 수 있는 평가방법론입니다.
  • 생각말하기 (Think Aloud)
    사용자가 태스크를 수행하면서 자신의 생각을 말로 표현하게 하여, 인지 과정과 문제 인식을 실시간으로 파악할 수 있는 정성적 평가방법입니다. 자신의 생각을 즉각적으로 말로 표현하지 않는 경우를 대비하여, 평가진행자가 참여자가 편하게 이야기할 수 있도록 도움을 주는 것이 중요합니다.
  • 쉐도잉 (Shadowing)
    실제 사용환경에서 사용자를 따라다니며 관찰하는 방법으로, 사용자의 자연스러운 행도과 맥락, 숨겨진 니즈를 현장에서 직접 파악하는 방법론입니다. 에쓰노그래피라고도 하며, 진행과정 중에 최소한으로 개입하다 보니 평가 시간과 비용을 예상하기 어려운 경우도 많습니다.

그 외에도 신경 써야 할 것들

  • 적정 표본 크기
    시간과 비용이 충분하다면, 표본의 크기는 클수록 좋습니다. 그러나 시간과 비용이 충분한 경우는 단 한 번도 본 적이 없습니다. 그러다 보니, 적정한 표본 크기를 결정해 달라는 경우를 자주 접하게 됩니다. 그럴 때에는 30명 이상을 추천하지만, 30명도 적지 않은 시간과 비용이 소요됩니다.
    30명이라는 것이 통계분야에서 n=30이상일 때 '중심극한정리'에 따라 정규분포에 근사할 수 있다는 점에서 기인하지만, 실제 평가 수행에서 이러한 현상을 관찰하는 것은 불가능하다고 볼 수 있습니다. 만약 인터뷰평가와 같은 정성적평가는 이러한 이론을 적용할 수 없으며, 그나마 경험적으로 나타난 것은 NNgroup (사용성평가에서 알아주는 닐슨-노만그룹입니다.)에서 수행한 많은 정성평가 결과를 분석해 보니, 5~6명의 참여자로도 아이템의 주요 문제점 중 80% 정도는 발견할 수 있다고 발표하였습니다. 즉, 5~6명 정도가 가성비가 가장 좋은 참여자 수라고 합니다.
  • 평가진행자 간 신뢰도
    대형 프로젝트인 경우에는 평가진행자가 많은 경우가 있습니다. 이때에는 필수적으로 평가진행자 사전 교육이 진행되어야 하며, 평가진행자가 일관된 평가를 진행할 수 있도록 준비하는 것이 중요합니다. 평가 진행 중 평가진행자가 질의하는 항목은 동일하더라도, 평가진행자가 사용하는 어휘나 어조에 따라, 참여자가 다르게 반응하거나 전혀 다른 피드백을 줄 수도 있기 때문입니다.
  • 시각화
    현재 공부를 하시는 분들도 계시고, 현업에 계신 분들도 계시겠지만, 시각화의 중요성은 얘기하지 않아도 다들 중요하게 생각하고 계십니다. 특히 복잡한 결과를 제시해야 할 때, 효과적으로 구성된 데이터 시각화는 더욱 빛을 발하게 됩니다. 정확한 데이터를 쉽게 확인할 수 있도록 제공하는 것이 중요할 수 있고, 정확한 데이터보다는 전체적 내용을 한눈에 확인하는 것이 중요할 수 있으므로, 정해진 방법이 없다는 게 가장 풀기 어려운 문제이지요.

마치며

실제 평가현장에서 항상 적용이 가능한 평가지표와 평가방법론란 없습니다. 평가대상 아이템, 평가목적, 아이템의 특성 등에 따라 평가지표와 평가방법론을 유연하게 선정하고 활용하는 것이 중요합니다. 또한 수집된 데이터를 어떻게 해석하는 것이 사용자에게 도움이 되는지도 끊임없이 고민해야 합니다. (심지어 동일한 수집데이터를 가지고, 해석에 따라 전혀 상반된 결론으로 해석되는 경우도 발생합니다.)