본문 바로가기
Causal inference

Part 3. Complementary and AlternativeTechniques to Controlled Experiments

by Night Fury 2023. 10. 5.
론 코하비, 다이앤 탕, 야 쉬, 『A/B 테스트 신뢰할 수 있는 온라인 종합 대조 실험』, 이기홍, 김기영, 에이콘출판사-MANNING(2022), p190-217.

 

Complementary Techniques

The Space of Complementary Techniques

  • ideas funnel (Ideas for experiments)
    • 구현이 쉬운 경우: 대조실험을 통해 직접 테스트하는 것을 권장
    • 구현 비용이 많이 드는 경우: Complementary Techniques을 통해 구현 비용을 절감
  • Validated metrics
    • proxy metric 활용 → 현실에서 측정이 어려운 ‘사용자 만족’과 같은 요소를 가늠할 수 있음
  • Evidence supporting or refuting hypotheses

 

Logs-based Analysis

  • 특징
    • Building intuition
    • Characterizing potential metrics
    • Generating ideas for A/B experiments
      • ex. 퍼널 분석을 통해 전환율이 떨어지는 단계를 찾아낼 수 있음
    • Natural experiments
      • 외부 환경이나 버그로 인해 간혹 발생됨
      • observational analysis을 통해 효과를 측정
    • Observational causal studies
      • 실험이 불가능할 때, Quasi-experiment design을 활용하여 향상된 추론 가능
  • 과거에 발생한 일을 바탕으로만 미래를 유추할 수 있는 한계가 있음
    • 로그 기반 분석을 사용자 및 시장 조사와 결합하는 것으로 포괄적인 결론에 도달 가능

 

User Experience Research (UER)

  • 진정한 사용자 의도와 계측을 통해 관찰되는 것의 상관관계를 기초로 하는 지표 개발에 유용
  • 직접적인 관찰과 적절한 질문으로 아이디어를 창출하고 문제를 발견하며 통찰력을 얻는데 유용
  • 시선 추적 데이터와 같은 데이터를 수집하기 위한 특수 장비가 필요할 수 있음

 

Focus Groups

  • 모집된 사용자나 잠재 사용자들 간의 guided group discussion
    • guide discussion: range of topics, open-ended questions about user attitudes
  • UER보다 scalable하고 답이 없고 애매한 문제를 다룰 수 있음
    • group의 소수 의견 or 편견에 빠질 수 있음
    • 고객의 의견은 진짜 생각과 다를 수 있음
      • 포커스 그룹에서 사용자들이 검은색을 진부하다고 얘기했으나, 보상 물건의 색상을 고를 때는 대부분 검은색을 선택했음
  • 추후 실험을 위한 설계 초기 단계의 잘못 설정된 가설에 대한 피드백을 얻거나 브랜딩 or 마케팅 변화를 위해 근본적인 감정 반응을 이해하려고 노력하는 데 유용할 수 있음

 

Observational Causal Studies

  • 관측 인과 연구(Observational Causal Studies)의 목표: 인과적 결과에 가능한 가깝게 접근하는 것
    = 인과 효과 추정

통제 실험이 불가능할 때

  • Counterfactual → 측정 불가능
    • ex. 사용자가 아이폰에서 갤럭시로 휴대폰을 변경할 때, 행동이 어떻게 변하는가?
  • 사건의 수가 너무 적은 경우
  • 실험이 실행되지 않는 대조군을 설정하기 어려운 경우 (희소한 케이스)
  • 변화 비용 예상 가치에 비해 상대적으로 높은 경우
  • 실험 단위를 적절하게 무작위 추출할 수 없는 경우

Designs for Observational Causal Studies

  • 2가지 문제점
    • Construct Control and Treatment groups for comparison
    • Model the impact given those Control and Treatment groups

1. Interrupted Time Series (ITS)

  • Quasi-experimental design
  • 랜덤화는 불가능하지만, 시스템 내의 실험 변화 여부를 제어 가능
  • 실험군과 대조군에 동일한 모집단을 사용하여, 시간에 따라 모집단의 경험이 어떻게 변화하는지 측정
  • 교란효과(confounding effect)를 제외해야한다.
    • 여러 번의 변화를 이리저리 시행하여 교란효과의 가능성을 줄일 수 있음
  • 예시
    • 헬리콥터 경찰의 정찰이 주택 강도에 미치는 영향
    • 온라인 환경: 온라인 광고가 검색 관련 사이트 방문에 미치는 영향 → 베이지안 구조 시계열 분석

참조: Comparison of six statistical methods for interrupted time series studies: empirical evaluation of 190 published series

 

2. Interleaved Experiments

  • 순위 알고리즘 변경을 평가하는데 일반적으로 사용됨 (ex. 검색 엔진, 웹사이트 검색)
  • 방법: 알고리즘 X, Y의 결과를 교차하여 배치한 후, 중복된 결과는 제거
  • 검증: 두 알고리즘 결과에 대한 CTR을 비교

참조: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

 

3. Regression Discontinuity Design (RDD)

  • Treatment population을 구분할 수 있는 명확한 threshold가 있을 때 사용 가능
  • 임계값을 기준으로 대조군, 실험군으로 구분하여 선택 편향을 줄일 수 있음
  • 교란 요인(confounding factors)으로 인해 임계값 불연속성은 오염될 수 있음

출처: Bayesian causal inference in automotive software engineering and online evaluation

 

4. Instrumented Variables (IV) and Natural Experiments

  • 도구 변수: random assignment를 근사하는 기법
    • ex. 공립학교 입학 추첨 → 참석율에 영향을 미치는 변수
    • 효과 추정을 위해 two-stage least squares regression model이 흔히 사용됨
  • 자연 실험
    • ex. 일란성 쌍둥이 연구

 

5. Propensity Score Matching (PSM)

  • propensity: 경향
  • 유사한 control, treatment 집단을 구성하는 방식
    • 대조군과 실험군의 차이가 집단 특성 차이로부터 발생되지 않아야 함
  • 온라인 광고 캠페인의 영향을 평가하기 위해 사용됨
  • 관찰된 공변량(covariate) 만을 고려함
    • 고려되지 않은 요인들로 편향이 발생 가능 → 교란 요인을 고려하는 것이 중요함

 

6. Difference in Differences (DID)

  • 시간에 따른 차이와 각 그룹 간의 차이를 통해 인과 효과를 추정
  • 변화가 외부요인에 의해 발생하는 경우에도 적용 가능

출처: Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing

 

7. Pitfalls

  • unanticipated confounds
    • common type of confound: unrecognized common cause
  • spurious or deceptive correlations
    • 허위 상관관계는 인과관계 주장을 기각할 직관이 없을 때, 믿는 경향이 있음
반응형

댓글