Notice
Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

쏜SSON의 PM/PO 달리기

A/B테스트를 이럴때 하지마세요! 본문

PM 아티클

A/B테스트를 이럴때 하지마세요!

쏘니쏜쏜 2025. 3. 1. 17:01
반응형

실패하는 A/B테스트의 패턴과 성공을 위한 실험 설계 방법

이커머스 고객 경험(CX)분야에서 프로덕트 매니저로 일하면서 직접 A/B테스트를 설계하고 실행해본 경험 뿐 아니라 다른 프로덕트 매니저들의 실험을 리뷰하는 역할도 맡아왔습니다. 이러한 과정에서 한가지 패턴이 점점 더 분명해졌습니다. 바로 실험이 실제 사용자에게 노출되기 전에 실패할 수 있다는 것입니다.

저는 다양한 실험을 통해 무엇이 효과적인지 뿐만 아니라 무엇이 흔한 설계 실수로 인해 실패하는지도 배울 수 있었습니다. 간단한 UI변경부터 백엔드 주문 처리 방식 개선까지 많은 프로덕트 매니저들이 실험을 통해 성공을 이루기도 했지만, 때로는 불필요한 시간과 리소스, 그리고 신뢰를 잃는 결과를 초래하기도 했습니다.

이 글에서는 제가 직접 경험한 두가지 사례를 소개하며, 프로덕트 매니저들이 보다 효과적으로 실험을 설계할 수 있도록 몇가지 중요한 교훈을 공유하고자 합니다.

사례1: 파일럿 테스트의 한계

배경

아마존에서 0부터 1까지 새로운 제품을 개발하는 프로젝트를 맡았을 때의 경험입니다. 저는 고객이 직접 사용하는 앱 경험을 담당했고, 파트너 팀은 주문 처리 시스템을 관리했습니다. 이 프로젝트에서 도입한 주문 처리 기술은 새로운 방식이었고, 초기 인프라 구축에 많은 리소스가 필요했기 때문에 한번에 한개 사이트에서만 출시할 수 있었습니다. 사이트를 확장하려면 최소 6개월이 걸리는 상황이었습니다.

CX 측면에서는 브랜드의 새로운 비전을 출시하려 했으며, 고객이 제품을 오해하며 아마존이나 파트너사의 평판에 부정적인 영향을 미치지 않도록 하는 것이 중요한 목표였습니다. 또한, 아마존의 기존 고객들에게 생소한 서비스 방식이었기에 여러 이해관계자 간에 MLP를 정하는 과정에서 많은 의견 충돌이 있었습니다.

 

도전과제

아마존에서는 보통 새로운 기능을 출시한 후 지속적으로 A/B테스트를 진행하면서 최적의 CX를 찾아가는 방식을 선호합니다. 이 방법이 효과적인 이유는 아마존이 방대한 고객층을 보유하고 있기 때문이며, 실험을 통해 실제 고객 피드백을 얻지 못하면 해결하기 어려운 문제들이 많기 때문입니다.

그러나 이번 프로젝트에서는 두가지 이유로 A/B테스트가 적절하지 않았습니다.

 

[1] 통계적 검증력 부족

- A/B테스트의 유효성을 확보하려면 충분한 사용자 표본이 필요합니다. 그러나 단일 사이트에서만 실험을 진행해야 했기 때문에 샘플 수가 부족하여 실험의 효과를 검증할 수 없었습니다.

 

[2] 브랜드 자산 테스트의 어려움

- A/B테스트가 가능하더라도 브랜드 자산(로고,UI디자인 등)에 대한 실험은 고객의 혼란을 초래할 가능성이 높았습니다. 동일한 서비스에서 서로 다른 브랜드 요소를 혼용할 경우 고객들이 제품의 정체성을 제대로 인식하지 못할 위험이 있었습니다. 

 

대안적인 접근 방식

A/B테스트 대신 다음과 같은 검증 방식을 활용했습니다.

1) 심층적인 정성적 테스트 진행

- UI구성 요소 및 사용자 흐름을 결정하기 위해, 모집된 고객 그룹을 대상으로 심층적인 인터뷰 및 사용성 테스트를 진행했습니다. 고객들에게 프로토타입을 보여주고, 프로그램의 명확성, 변경사항에 대한 의견, 실제 사용 시 예상 행동 등을 질문했습니다.

- 일반적으로 모든 프로젝트에서 정성적 테스트를 진행하지만, 이번 프로젝트에서는 A/B테스트가 불가능한 점을 고려하여, 평소보다 더 많은 사용자를 대상으로 심도 깊은 피드백을 수집했습니다.

 

2) 사전-사후 분석 수행

- 파일럿 테스트의 성공 여부를 판단하기 위해, 명확한 핵심지표(KPI)를 설정한 후 론칭 전후 데이터를 비교했습니다.

- 물론, 이러한 사전-사후 분석은 계절성, 거시경제변화, 고객의 심리적 변화 등을 통제하기 어렵다는 한계가 있지만 방향성을 확인하는데 유용한 방법이었습니다.

 

핵심 교훈

  • A/B테스트가 항상 최선의 방법은 아니다.
    • 브랜드 리뉴얼처럼 전략적인 변화가 포함된 경우, A/B테스트나 점진적으로 롤아웃이 적절하지 않을 수 있다.
  • 통계적 검증력을 고려한 실험 설계가 중요하다.
    • A/B테스트를 실행하려면 최소 30,000명 이상의 방문자가 필요하다는 것이 일반적 기준이다.
    • 샘플 수를 늘리기 위해 고객 세그먼트를 확장하거나, 여러 지역에서 동시에 테스트를 진행하는 방법을 고려할 수 있다.
  • 대체 검증 방법을 적극활용하라
    • 정성적 테스트, 사용자 연구, 사전-사후 분석을 통해서도 유의미한 피드백을 얻을 수 있다.

 

사례2 : 실험 간섭의 문제

배경

아마존 앱에서 식료품 검색 기능을 개선하는 프로젝트를 진행했습니다. 해당 기능은 새로운 체크아웃 플로우를 포함하고 있었으며, 기존의 여러 UI요소를 재사용하여 고객 경험의 일관성을 유지하고 개발 비용을 절감하려 했습니다.

 

도전과제

1) 예상치 못한 사용자 경험 발생

  • 실험 도중, 우리가 설계한 사용자 흐름과 전혀 다른 플로우가 나타나는 문제가 발생했습니다.
  • 이는 실험 대상 UI 구성요소를 관리하는 다른 팀이 동시다발적으로 별도의 A/B테스트를 진행하고 있었기 때문입니다.

2) 브랜드별 성과 차이

  • 동일한 실험을 두개의 소매 브랜드에서 진행했지만, 결과가 상반되게 나타났습니다.
  • 초기 데이터에서는 한 브랜드에서 더 높은 사용자 참여율을 보였지만, 실험 설계상 브랜드 별 영향을 명확히 구분할 수 없었기 때문에, 실험을 두개로 분리하여 다시 실행해야 했습니다.

핵심 교훈

  • 실험 간섭을 사전에 점검하라
    • 대규모 조직에서는 여러 실험이 동시에 진행되므로, 자신의 실험이 다른 실험과 충돌하지 않는지 미리 확인해야 한다.
  • 성공 기준을 명확히 설정하고 일관되게 적용하라
    • 실험 시작 전, 객관적인 성공 기준을 정의하고, 감정적인 판단 없이 원칙을 준수해야한다.

결론

A/B테스트를 잘못 설계하면 실험 데이터가 무의미해질 뿐만 아니라 시간과 자원을 낭비하고 잘못된 결정을 내릴 위험이 커집니다. 실험 설계를 마지막 단계에서 대충 처리하기 보다는 사전에 체크리스트를 만들어 체계적으로 접근하는 것이 중요합니다.

또한, 실험을 진행할 때는 다양한 이해관계자들과 충분히 논의를 거쳐 보다 객관적이로 신뢰할 수 있는 결과를 얻을 수 있도록 해야합니다.

 

 

 

https://www.mindtheproduct.com/beyond-launch-metrics-two-case-studies-in-crafting-a-b-tests/

 

Beyond launch metrics: Two case studies in crafting A/B tests

Learn key A/B testing pitfalls and best practices in e-commerce CX through real-world case studies, ensuring effective experiment design for impactful customer experiences.

www.mindtheproduct.com

 

반응형