인과추론의 데이터과학. (2021, Oct 25). [Session 13-1] 머신러닝의 해석 가능성과 인과추론 [Video]. YouTube.
인과추론의 데이터과학. (2021, Oct 25). [Session 13-2] 인과추론을 위한 머신러닝 모델 [Video]. YouTube.
Session 13-1
왜 causality가 가치 있을까?
- actionable strategy를 줄 수 있다
- 실제로는 causality, association 모두 힘들다
- 왜 어려울까?
- 실제 세상은 복잡하다
- 데이터가 완벽하지 않다
- 알 수 없는 요인들이 많다
Summary
- Causal ML/DL은 기존 전통 모델의 연장선이다
- 장점: 복잡한 feature space를 탐색 가능
- 단점: 불완전한 데이터를 해결 못함, 도메인/이론 지식이 필요함
- 방법:
- 실험이 가장 효율/효과적
- A/B 테스트의 효율을 높여줄 수 있다 (MAB)
- additional value를 더해줄 수 있다 (uplift)
추천 자료
- Cambridge Analytica 사례: 지역별 personalized 된 propaganda를 제작해 줌
- youtube → engagement monster
- Netflix: The great hack
- Example
- 소수의 사람들을 random 하게 뽑음 → Facebook에서 친구의 데이터도 같이 뽑음
- Big 5 Personality를 예측하는 모델을 만듦
- 특성 A를 가진 사람이 올린 글을 좋아요 한 친구들을 클러스터링 → 샘플링 뻥튀기
- 클러스터링 한 사람들을 profiling
- propaganda를 보여주면서 반응을 보면서 여론을 움직임
SHAP
- SHapley Additive exPlanations
- 모든 경우의 수를 다 확인하는 방법 (Combination + Order)
- Local Interpretability 특성을 가짐 → 사람마다 변수의 coefficient, correlation이 다른 것
- SHAP은 각 feature에 heterogeneity effect를 제공하니까 causal effect인가? → Wrong
- 어떤 데이터든, treatment feature는 다른 feature들과 다 상관성이 있기 때문
- ex. 구매를 한 그룹 vs 구매를 하지 않은 그룹 → charateristics가 완전히 다름 → Causal 아님
- 그럼 treatment feature와 다른 feature들이 모두 독립적이면 causal일까? → 아직 모름
- 측정되지 않은 confounding feature들을 해결해야 인과 효과를 측정할 수 있다.
Session 13-2
EconML
Intro
- Potential Outcomes
- 먼저 모델을 돌려보고 theory/paper를 파보는 것을 추천
- causal relationship과 structure를 알고 있어야 함
- potential confounders/controls가 관측되어야 함
- double ML, doubly robust learning, meta-learners
- instrumental variable이 있을 때 좋다
- deep IV
- potential confounders/controls가 관측되어야 함
- A/B testing 환경이 될 때, 사용하는 것을 추천
- 장점
- treatment의 heterogeneity effect를 측정할 수 있음 (CATE > ATE)
- flexible data form을 다룰 수 있음
- assumption이 적다
- Uplift 사례: 제한된 예산으로 promotion 효과를 최대화할 수 있음
Implementation
- 구현 방식
- Requirements
- theory & domain 지식이 modeling을 위해 필수
- ML/DL causal model은 manual design이 핵심
- unobserved important confounder가 없어야 함 → 데이터가 중요!
- advice
- relevance를 추구한다? → 실험 데이터 + uplift로 시작
- 좋은 setting을 같은 impact를 추구한다? → 모델을 통한 향상
- 연구 목적? → Theoretical contribution을 어떻게 derive 할지 고민
Model Choice
- Mindset
- DL의 미덕: 왜 잘 되는지 모르겠다. 그런데 잘 되더라. (e.g. BatchNorm)
- 구현해보고 가장 잘 작동하는 모델을 사용 → Cross-validation
- Model competetion, Methodological contritubtion은 그게 중요한 분들에게 맡기자! → 나중에 모델들이 언제 잘 작동하는지 데이터가 쌓인다.
- Application의 value와 impact에 더 초점을 맞추자
- Time-series data
- Google’s Bayesian structural time-series
- trend/seasonal/cyclical을 잘 잡는 장점이 있음
- 편하지만 관측되지 않은 exogeneous 요인은 잘 맞지 않은 단점이 있음
- Transfer Entropy
- multivariate time-series features
- causal pattern이 깔끔하고 데이터의 품질이 좋을 때 잘 작동함
- Google’s Bayesian structural time-series
Graph-based Causal Model
- Bayesian network는 복잡한 관계들을 하나로 담을 수 있음
- 데이터가 풍부하고, 관측 가능하고 clear 한 relation을 갖고 있다면 추천!
Multi-armed Bandits (MAB)
- traditional reinforcement learning
- exploration vs exploitation
- exploration: 안 해본 것을 탐험해 보는 것
- exploitation: 현재 알고 있는 것 중에서 최선의 결정을 만들어내는 것
- MAB는 advanced AB-testing으로 볼 수 있음
- Example
- Approach
- Two naive approach
- random (full exploration): 랜덤 하게 슬롯머신을 고르는 것
- greedy (full exploitation): 몇 번 시도하고 가장 결과가 좋은 머신만 선택하는 것
- Epsilon greedy: 동전을 던져서 앞면이 나오면 exploitation, 뒷면이 나오면 exploration을 선택
- Upper-Confidence-Bound (UCB)
- 충분한 시도가 쌓여서 신뢰할만한 confidence interval이 생길 때까지 exploration 하는 방법
- Thompson Sampling
- distribution에서 샘플을 뽑는 방식 (주로 beta 분포를 사용)
- 랜덤 하게 샘플 추출 (분포가 높은 곳이 자주 뽑힘) → 가장 높은 선택지를 선택 → 분포 update 반복
- 많이 사용되는 방법이라 baseline으로 사용됨
- Two naive approach
Reference
반응형
'Causal inference' 카테고리의 다른 글
[KSSCI 2021] 인과추론의 데이터 과학 - Session 15 (0) | 2023.10.03 |
---|---|
[KSSCI 2021] 인과추론의 데이터 과학 - Session 14 (0) | 2023.09.27 |
Part 2. Selected Topics for Everyone (1) | 2023.09.13 |
Part 1. 03~04 (1) | 2023.09.07 |
[KSSCI 2021] 인과추론의 데이터 과학 - Session 11 (0) | 2023.09.05 |
댓글