상세 컨텐츠

본문 제목

야머 프로젝트3️⃣: A/B테스트 결과를 분석해라

본문

📊 데잇걸즈의 데이터 분석 프로젝트

데잇걸즈는 실무 수준의 데이터 분석 역량을 키우기 위해 '이터레이션iteration' 단위를 통해 학습하고, 단위마다 분석 프로젝트를 거듭하는 방식으로 학습하고 있습니다. 여기서 이터레이션이란, 특정 목적의 달성이나 원하는 최종값을 얻기 위하여 특정한 알고리듬의 같은 과정을 변수만 달리하여 반복적으로 수행시키는 것을 의미하는 단어로 데잇걸즈에서는 최종 학습 목표에 도달하기 위해 작은 프로젝트를 거듭하도록 하는 회기 하나하나를 의미합니다. 데잇걸즈 구성원들은 이터레이션마다 반복적으로 작은 수준의 실패와 빛나는 성공들을 경험하며 꾸준히 성장해왔습니다!

이터레이션1에서는 1) SQL 이론 강의와 실습이 주를 이루었습니다. 프로그래머스, 해커랭크의 코딩 테스트 문제를 풀고 데이터베이스에서 원하는 데이터를 추출 및 가공하는 쿼리 작성을 연습했습니다. 2) AARRR 마케팅 워크숍을 통해 비즈니스 모델 프레임워크를 활용한 고객 행동 분석을 학습하였습니다.

[야머(Yammer)프로젝트] 란?

"야머(Yammer)"는 마이크로소프트 산하의 기업용 소셜 네트워크 서비스 회사입니다. 데잇걸즈에서 본 프로젝트 시리즈를 위해 사용한 데이터가 "야머(Yammer)"사의 데이터이기 때문에, 일명 "야머 프로젝트"라 부르고 있습니다. 또한 사용된 데이터는 데이터 분석 솔루션 업체 "모드(MODE)"에서 받았으며, 이를 활용하여 총 3가지의 현업과 유사한 문제 상황을 가정하고 해결하는 시뮬레이션 프로젝트를 진행했습니다.

야머 프로젝트 3️⃣: A/B 테스트를 진행한 결과를 분석하라!

 

세 번째 프로젝트의 과제

야머는 새로운 기능을 개발할 뿐만 아니라, 기존에 있는 기능들을 지속적으로 개선하고 있습니다. 야머는 이렇게 개선한 기능을 정식으로 고객들에게 선보이기전에, 이 기능이 고객 경험에 어떤 영향을 주는지 파악하기 위한 A/B 테스트를 진행합니다. 이번에는 야머의 메시지 발송기능을 개선해서 A/B 테스트를 진행했는데, 이전과 어떤 차이가 있는지 분석을 통해 알아보려고 합니다.


데잇걸즈 5개 조는 이 과제를 어떻게 분석했는지 살펴봅시다.

team no.1

👀 team no.1의 발표자료

A/B 테스트 결과를 이해하는데에 기본이 되는 T-test, P_value 를 설명합니다. 그리고 동료의 테스트 방식에 두가지 의문점을 제기합니다. 첫째로 테스트 결과 측정 방식이 잘못 되었을 가능성 입니다. t-test를 진행하고, z-test 분포표를 참고한 점을 발견해내었습니다. 둘째로 대조군과 실험군을 정말로 랜덤하게 나누었는지에 대해 의문과 그렇게 생각한 이유들을 제시하고 있습니다. 그리고 이런 의문점을 개선한 새로운 분석 방법을 제안하고 있습니다.

team no.2

👀 team no.2의 발표자료

FROM 절의 테이블 구조 요약

본격 분석에 앞서 SQL 코드를 꼼꼼하게 뜯어보고, 테이블의 구조를 도식화하여 복잡한 subquery를 한눈에 볼 수 있도록 정리했습니다. 그리고 각 테이블의 컬럼이 무엇을 의미하는지 table을 직접 join 해보면서 살펴보고 쿼리에 사용 된 함수들을 정의하면서 테이블과 쿼리를 이해하는데에 도움을 주었습니다. 분석과정에서는 코호트 분석을 활용하여, 테스트 결과를 세부적으로 더 쪼개서 살펴보고 있습니다.

team no.3

👀 team no.3의 발표자료

이름만으로 이해하기 어려운 지표인 rate_difference, rate_lift 등에 대한 정의를 꼼꼼하게 살펴보고, 쿼리로 이해하고 있어요. 또한 동료가 그린 시각화 방법보다 더 나은 방법의 시각화를 제안하고 있습니다. 그리고 디바이스 별로 보았을 때 주의해야 할 교란편향(Counfounding bias)에 대해 개념을 설명하고, 야머의 실험에서는 교랸편향이 없었는지 분석했습니다.

team no.4

👀 team no.4의 발표자료

실험 결과에서 주요하게 살펴볼 문제들을 미리 정의해두고 동료의 분석을 뜯어보고 있습니다. 그리고 분석과정에서 쿼리를 다시 짰을 때 발생하는 null값이 생기는 예외 케이스, 컬럼에 한가지 값 밖에 없음에도 명시해주는 이유, 신규 유저의 기준에 대해 의문을 가지고, 해답을 이끌어내었습니다. 최종적으로 앞으로 신규 유저대상으로만 A/B 테스트를 진행해보는 것과 기기별 사용량을 체크해보는 것을 제안하면서 마무리했습니다. 

team no.5

👀 team no.5의 발표자료

A/B 테스트 결과를 해석하는데에 도움이 되는 통계의 가설검정, z-test, t-test, p-value를 알기 쉽게 정리했습니다. 결과에 대해서 야머 동료는 개선한 버전이 성과가 높다고 했지만, 국가, 기기 등을 고려하여 균등하게 집단을 나누었는지에 대해 의문을 제기하였습니다. 또한 실험군에게 동일한 테스트 기간이 적용되는 방안을 고려할 것을 제안했습니다.


이 프로젝트에서는...

A/B 테스트 결과를 해석하는데에 도움이 되는 통계의 가설검정, z-test, t-test, p-value를 알기 쉽게 정리했습니다. 결과에 대해서 야머 동료는 개선한 버전이 성과가 높다고 했지만, 국가, 기기 등을 고려하여 균등하게 집단을 나누었는지에 대해 의문을 제기하였습니다. 또한 실험군에게 동일한 테스트 기간이 적용되는 방안을 고려할 것을 제안했습니다.🙂

 

관련글 더보기

댓글 영역