[KSSCI 2021] 인과추론의 데이터 과학

인과추론의 데이터과학. (2021, Nov 1). [Session 14-1] 신약 개발에서의 인과추론의 역할과 한계 [Video]. YouTube.
인과추론의 데이터과학. (2021, Nov 1). [Session 14-2] 머신러닝을 활용한 이질적 인과관계 분석 [Video]. YouTube.

Session 14-1

약물 개발

신규
- 10-17년, $2-3 billion
- 높은 실패율 (평균적으로 90%)
Recycling: repurposing
- 3-12년
- 안정성 담보

RCTs란? (Randomized clinical trials)

treatment의 효과를 측정하는 방식
참가자들을 2가지 그룹으로 분리 (new treatment vs standard treatment)
비싸고, 높은 실패율, 때로는 안전하지 않음
Emulated RCT의 경우 집단이 동일하지 않기 때문에, selection bias가 존재함

Potential outcome framework

Average Treatment effect 측정

보통 ATE 활용 ($ATE = E[Y(1) - Y(0)]$)
실 세계에서는 selection bias가 발생함

Propensity score 방법 (matching vs weighting)
- matching: 비슷한 성향을 가진 유저끼리 clustering
- weighting: rare한 특성 데이터에 높은 가중치를 부여하고, 많은 특성의 데이터에 낮은 가중치를 부여

Heterogeneity Treatment effect (HTE)

CATE(conditional average treatment effect), ITE(individual treatment effect)로도 불림
약물은 보통 5-60% 사람들만 혜택을 본다고 생각함
어떤 사람이 혜택을 받고 어떤 사람이 혜택을 받지 않는지 알면 도움이 될 것

Session 14-2

Heterogeneous treatment effect 측정 방법

regression 모델로 특성의 뉘앙스, 문맥을 학습
treatment effect(HTE)를 추정
- semi-parametric structural equation model
- imputing counterfactual outcome
propensity score로 weighting을 할 것인지 선택
method: double maching learning, meta learners, balanced representation learning

Double Machine Learning

learning coefficient of semi-parametric structual equation model
Output 예측 모델, Treatment 예측 모델 각각을 만들어서 estimate
장점:
- T(Treatment)가 structual equation에 들어있기 때문에 flexible 함
- confidence 구간을 구할 수 있음
- constraint를 없애면, $\tau(X)$만 infer 하는 R-learner로 쓸 수 있음

Meta Learners

non-parametric HTE estimation by imputing missing counterfactual outcome
결측치 예측 → HTE 추정
실용적인 방법론
문제를 여러 가지로 분할함
- 뉘앙스 learn
- Outcome learn
- HTE 추정
종류
- S-learner (에스 러너) → treatment 처치 여부 구분 없이 parameter를 공유하여 예측
- T-learner (투 러너) → treatment 처치 여부를 나눈 후에 Y(1), Y(0) 예측 모델을 각각 만들어서 활용
- X-learner (엑스 러너) → T-learner에 몇 가지를 추가한 방식
  - treatment 처치 여부에 따른 HTE 예측 모델을 추가적으로 만듦
    - 데이터 imbalance를 해결하기 위한 목적
  - 그 이후 weighted average를 함
  - selection bias를 고려함 (S, T-learner는 고려 안 함)

Balanced representation learning

covariate shift using neural network
3가지 loss가 존재
- selection bias를 줄이는 covariate shift
- outcome별 ($Y(0), Y(1)$) loss

어떤 모델을 써야 할까..? → evaluation 방법
- Empirical evaluation ⇒ 정확하지 않음
  - IHDP: 사람이 manual 하게 계산하는 방법 → ground truth가 작음
  - Synthetic data를 만들어서 테스트
- Theoretical evaluation ⇒ paper에 많이 등장
  - tight error bound
IHDP 실험 결과

Time-dependent treatment로 HTE 추정 방법

x: 시간에 따라 변하는 환자의 condition
t: 시간에 따라 변하는 treatment

Summary

ATE vs HTE

어떤 모델을 사용해야 하나?
- sparse vs unstructered?
  - sparse → Meta learner
  - unstructered → Balanced representation learning
- Static vs temporal
- large vs small
  - small → Meta learner (Balanced representation learning는 overfitting 문제가 발생 가능)
  - large → Balanced representation learning
assumption이 지켜질 것인가?
- hidden confounders를 주의
- treatment assignment가 deterministic 한 것 또한 주의
data quality
- treatment effect는 상대적인 것 (placebo를 정하는 것이 매우 어려움)

저작자표시 비영리 변경금지

'Mathematics > Causal inference' 카테고리의 다른 글

[KSSCI 2021] 인과추론의 데이터 과학 - Session 16 (0)	2023.10.11
[KSSCI 2021] 인과추론의 데이터 과학 - Session 15 (0)	2023.10.03
[KSSCI 2021] 인과추론의 데이터 과학 - Session 13 (0)	2023.09.27
[KSSCI 2021] 인과추론의 데이터 과학 - Session 11 (0)	2023.09.05
[KSSCI 2021] 인과추론의 데이터 과학 - Session 9 (0)	2023.08.29

NightFury

[KSSCI 2021] 인과추론의 데이터 과학 - Session 14

Session 14-1

약물 개발

RCTs란? (Randomized clinical trials)

Potential outcome framework

Average Treatment effect 측정

Heterogeneity Treatment effect (HTE)

Session 14-2

Heterogeneous treatment effect 측정 방법

Double Machine Learning

Meta Learners

Balanced representation learning

Time-dependent treatment로 HTE 추정 방법

Summary

'Mathematics > Causal inference' 카테고리의 다른 글

댓글

티스토리툴바

[KSSCI 2021] 인과추론의 데이터 과학 - Session 14

Session 14-1

약물 개발

RCTs란? (Randomized clinical trials)

Potential outcome framework

Average Treatment effect 측정

Heterogeneity Treatment effect (HTE)

Session 14-2

Heterogeneous treatment effect 측정 방법

Double Machine Learning

Meta Learners

Balanced representation learning

Time-dependent treatment로 HTE 추정 방법

Summary

'Mathematics > Causal inference' 카테고리의 다른 글

관련글

댓글

티스토리툴바