본문 바로가기
Causal inference

[KSSCI 2021] 인과추론의 데이터 과학 - Session 14

by Night Fury 2023. 9. 27.
인과추론의 데이터과학. (2021, Nov 1). [Session 14-1] 신약 개발에서의 인과추론의 역할과 한계 [Video]. YouTube.
인과추론의 데이터과학. (2021, Nov 1). [Session 14-2] 머신러닝을 활용한 이질적 인과관계 분석 [Video]. YouTube.

 

 

Session 14-1

약물 개발

  • 신규
    • 10-17년, $2-3 billion
    • 높은 실패율 (평균적으로 90%)
  • Recycling: repurposing
    • 3-12년
    • 안정성 담보

RCTs란? (Randomized clinical trials)

  • treatment의 효과를 측정하는 방식
  • 참가자들을 2가지 그룹으로 분리 (new treatment vs standard treatment)
  • 비싸고, 높은 실패율, 때로는 안전하지 않음
  • Emulated RCT의 경우 집단이 동일하지 않기 때문에, selection bias가 존재함

출처: 인과추론의 데이터과학

 

Potential outcome framework

출처: 인과추론의 데이터과학

 

Average Treatment effect 측정

  • 보통 ATE 활용 (\(ATE = E[Y(1) - Y(0)]\))
  • 실 세계에서는 selection bias가 발생함

출처: 인과추론의 데이터과학

 

  • Propensity score 방법 (matching vs weighting)
    • matching: 비슷한 성향을 가진 유저끼리 clustering
    • weighting: rare한 특성 데이터에 높은 가중치를 부여하고, 많은 특성의 데이터에 낮은 가중치를 부여

출처: 인과추론의 데이터과학

 

Heterogeneity Treatment effect (HTE)

  • CATE(conditional average treatment effect), ITE(individual treatment effect)로도 불림
  • 약물은 보통 5-60% 사람들만 혜택을 본다고 생각함
  • 어떤 사람이 혜택을 받고 어떤 사람이 혜택을 받지 않는지 알면 도움이 될 것

출처: 인과추론의 데이터과학

 

Session 14-2

Heterogeneous treatment effect 측정 방법

  • regression 모델로 특성의 뉘앙스, 문맥을 학습
  • treatment effect(HTE)를 추정
    • semi-parametric structural equation model
    • imputing counterfactual outcome
  • propensity score로 weighting을 할 것인지 선택
  • method: double maching learning, meta learners, balanced representation learning

출처: 인과추론의 데이터과학

Double Machine Learning

  • learning coefficient of semi-parametric structual equation model
  • Output 예측 모델, Treatment 예측 모델 각각을 만들어서 estimate
  • 장점:
    • T(Treatment)가 structual equation에 들어있기 때문에 flexible 함
    • confidence 구간을 구할 수 있음
    • constraint를 없애면, \(\tau(X)\)만 infer 하는 R-learner로 쓸 수 있음

출처: 인과추론의 데이터과학

Meta Learners

  • non-parametric HTE estimation by imputing missing counterfactual outcome
  • 결측치 예측 → HTE 추정
  • 실용적인 방법론
  • 문제를 여러 가지로 분할함
    • 뉘앙스 learn
    • Outcome learn
    • HTE 추정
  • 종류
    • S-learner (에스 러너) → treatment 처치 여부 구분 없이 parameter를 공유하여 예측
    • T-learner (투 러너) → treatment 처치 여부를 나눈 후에 Y(1), Y(0) 예측 모델을 각각 만들어서 활용
    • X-learner (엑스 러너) → T-learner에 몇 가지를 추가한 방식
      • treatment 처치 여부에 따른 HTE 예측 모델을 추가적으로 만듦
        • 데이터 imbalance를 해결하기 위한 목적
      • 그 이후 weighted average를 함
      • selection bias를 고려함 (S, T-learner는 고려 안 함)

출처: 인과추론의 데이터과학

 

Balanced representation learning

  • covariate shift using neural network
  • 3가지 loss가 존재
    • selection bias를 줄이는 covariate shift
    • outcome별 (\(Y(0), Y(1)\)) loss

출처: 인과추론의 데이터과학

 

  • 어떤 모델을 써야 할까..? → evaluation 방법
    • Empirical evaluation ⇒ 정확하지 않음
      • IHDP: 사람이 manual 하게 계산하는 방법 → ground truth가 작음
      • Synthetic data를 만들어서 테스트
    • Theoretical evaluation ⇒ paper에 많이 등장
      • tight error bound
  • IHDP 실험 결과

출처: 인과추론의 데이터과학

 

Time-dependent treatment로 HTE 추정 방법

  • x: 시간에 따라 변하는 환자의 condition
  • t: 시간에 따라 변하는 treatment

출처: 인과추론의 데이터과학

 

Summary

  • ATE vs HTE

출처: 인과추론의 데이터과학

  • 어떤 모델을 사용해야 하나?
    • sparse vs unstructered?
      • sparse → Meta learner
      • unstructered → Balanced representation learning
    • Static vs temporal
    • large vs small
      • small → Meta learner (Balanced representation learning는 overfitting 문제가 발생 가능)
      • large → Balanced representation learning
  • assumption이 지켜질 것인가?
    • hidden confounders를 주의
    • treatment assignment가 deterministic 한 것 또한 주의
  • data quality
    • treatment effect는 상대적인 것 (placebo를 정하는 것이 매우 어려움)
반응형

댓글