[KSSCI 2021] 인과추론의 데이터 과학

인과추론의 데이터과학. (2021, Oct 25). [Session 13-1] 머신러닝의 해석 가능성과 인과추론 [Video]. YouTube.
인과추론의 데이터과학. (2021, Oct 25). [Session 13-2] 인과추론을 위한 머신러닝 모델 [Video]. YouTube.

Session 13-1

왜 causality가 가치 있을까?

actionable strategy를 줄 수 있다
실제로는 causality, association 모두 힘들다
왜 어려울까?
- 실제 세상은 복잡하다
- 데이터가 완벽하지 않다
- 알 수 없는 요인들이 많다

Summary

Causal ML/DL은 기존 전통 모델의 연장선이다
- 장점: 복잡한 feature space를 탐색 가능
- 단점: 불완전한 데이터를 해결 못함, 도메인/이론 지식이 필요함
- 방법:
  - 실험이 가장 효율/효과적
  - A/B 테스트의 효율을 높여줄 수 있다 (MAB)
  - additional value를 더해줄 수 있다 (uplift)

SHAP

SHapley Additive exPlanations
모든 경우의 수를 다 확인하는 방법 (Combination + Order)
Local Interpretability 특성을 가짐 → 사람마다 변수의 coefficient, correlation이 다른 것

SHAP은 각 feature에 heterogeneity effect를 제공하니까 causal effect인가? → Wrong
- 어떤 데이터든, treatment feature는 다른 feature들과 다 상관성이 있기 때문
- ex. 구매를 한 그룹 vs 구매를 하지 않은 그룹 → charateristics가 완전히 다름 → Causal 아님
- 그럼 treatment feature와 다른 feature들이 모두 독립적이면 causal일까? → 아직 모름
측정되지 않은 confounding feature들을 해결해야 인과 효과를 측정할 수 있다.

Session 13-2

EconML

Intro

Potential Outcomes
먼저 모델을 돌려보고 theory/paper를 파보는 것을 추천
causal relationship과 structure를 알고 있어야 함
- potential confounders/controls가 관측되어야 함
  - double ML, doubly robust learning, meta-learners
- instrumental variable이 있을 때 좋다
  - deep IV
A/B testing 환경이 될 때, 사용하는 것을 추천
장점
- treatment의 heterogeneity effect를 측정할 수 있음 (CATE > ATE)
- flexible data form을 다룰 수 있음
- assumption이 적다
Uplift 사례: 제한된 예산으로 promotion 효과를 최대화할 수 있음

Implementation

구현 방식

Requirements
- theory & domain 지식이 modeling을 위해 필수
- ML/DL causal model은 manual design이 핵심
- unobserved important confounder가 없어야 함 → 데이터가 중요!
advice
- relevance를 추구한다? → 실험 데이터 + uplift로 시작
- 좋은 setting을 같은 impact를 추구한다? → 모델을 통한 향상
- 연구 목적? → Theoretical contribution을 어떻게 derive 할지 고민

Model Choice

Mindset
- DL의 미덕: 왜 잘 되는지 모르겠다. 그런데 잘 되더라. (e.g. BatchNorm)
- 구현해보고 가장 잘 작동하는 모델을 사용 → Cross-validation
- Model competetion, Methodological contritubtion은 그게 중요한 분들에게 맡기자! → 나중에 모델들이 언제 잘 작동하는지 데이터가 쌓인다.
- Application의 value와 impact에 더 초점을 맞추자
Time-series data
- Google’s Bayesian structural time-series
  - trend/seasonal/cyclical을 잘 잡는 장점이 있음
  - 편하지만 관측되지 않은 exogeneous 요인은 잘 맞지 않은 단점이 있음
- Transfer Entropy
  - multivariate time-series features
  - causal pattern이 깔끔하고 데이터의 품질이 좋을 때 잘 작동함

Graph-based Causal Model

Bayesian network는 복잡한 관계들을 하나로 담을 수 있음
데이터가 풍부하고, 관측 가능하고 clear 한 relation을 갖고 있다면 추천!

Multi-armed Bandits (MAB)

traditional reinforcement learning
exploration vs exploitation
- exploration: 안 해본 것을 탐험해 보는 것
- exploitation: 현재 알고 있는 것 중에서 최선의 결정을 만들어내는 것
MAB는 advanced AB-testing으로 볼 수 있음
Example

Approach
- Two naive approach
  - random (full exploration): 랜덤 하게 슬롯머신을 고르는 것
  - greedy (full exploitation): 몇 번 시도하고 가장 결과가 좋은 머신만 선택하는 것
- Epsilon greedy: 동전을 던져서 앞면이 나오면 exploitation, 뒷면이 나오면 exploration을 선택
- Upper-Confidence-Bound (UCB)
  - 충분한 시도가 쌓여서 신뢰할만한 confidence interval이 생길 때까지 exploration 하는 방법
- Thompson Sampling
  - distribution에서 샘플을 뽑는 방식 (주로 beta 분포를 사용)
  - 랜덤 하게 샘플 추출 (분포가 높은 곳이 자주 뽑힘) → 가장 높은 선택지를 선택 → 분포 update 반복
  - 많이 사용되는 방법이라 baseline으로 사용됨

Reference

저작자표시 비영리 변경금지 (새창열림)

'Mathematics > Causal inference' 카테고리의 다른 글

[KSSCI 2021] 인과추론의 데이터 과학 - Session 15 (0)	2023.10.03
[KSSCI 2021] 인과추론의 데이터 과학 - Session 14 (0)	2023.09.27
[KSSCI 2021] 인과추론의 데이터 과학 - Session 11 (0)	2023.09.05
[KSSCI 2021] 인과추론의 데이터 과학 - Session 9 (0)	2023.08.29
[KSSCI 2021] 인과추론의 데이터 과학 - Session 7/8 보충 (0)	2023.08.22

NightFury

[KSSCI 2021] 인과추론의 데이터 과학 - Session 13

Session 13-1

왜 causality가 가치 있을까?

Summary

추천 자료

SHAP

Session 13-2

EconML

Intro

Implementation

Model Choice

Graph-based Causal Model

Multi-armed Bandits (MAB)

Reference

'Mathematics > Causal inference' 카테고리의 다른 글

댓글

티스토리툴바

[KSSCI 2021] 인과추론의 데이터 과학 - Session 13

Session 13-1

왜 causality가 가치 있을까?

Summary

추천 자료

SHAP

Session 13-2

EconML

Intro

Implementation

Model Choice

Graph-based Causal Model

Multi-armed Bandits (MAB)

Reference

'Mathematics > Causal inference' 카테고리의 다른 글

관련글

댓글

티스토리툴바