본문 바로가기
Causal inference

[KSSCI 2021] 인과추론의 데이터 과학 - Session 13

by Night Fury 2023. 9. 27.
인과추론의 데이터과학. (2021, Oct 25). [Session 13-1] 머신러닝의 해석 가능성과 인과추론 [Video]. YouTube.
인과추론의 데이터과학. (2021, Oct 25). [Session 13-2] 인과추론을 위한 머신러닝 모델 [Video]. YouTube.

 

Session 13-1

왜 causality가 가치 있을까?

  • actionable strategy를 줄 수 있다
  • 실제로는 causality, association 모두 힘들다
  • 왜 어려울까?
    • 실제 세상은 복잡하다
    • 데이터가 완벽하지 않다
    • 알 수 없는 요인들이 많다

Summary

  • Causal ML/DL은 기존 전통 모델의 연장선이다
    • 장점: 복잡한 feature space를 탐색 가능
    • 단점: 불완전한 데이터를 해결 못함, 도메인/이론 지식이 필요함
    • 방법:
      • 실험이 가장 효율/효과적
      • A/B 테스트의 효율을 높여줄 수 있다 (MAB)
      • additional value를 더해줄 수 있다 (uplift)

추천 자료

  • Cambridge Analytica 사례: 지역별 personalized 된 propaganda를 제작해 줌
    • youtube → engagement monster
  • Netflix: The great hack
  • Example
    • 소수의 사람들을 random 하게 뽑음 → Facebook에서 친구의 데이터도 같이 뽑음
    • Big 5 Personality를 예측하는 모델을 만듦
    • 특성 A를 가진 사람이 올린 글을 좋아요 한 친구들을 클러스터링 → 샘플링 뻥튀기
    • 클러스터링 한 사람들을 profiling
    • propaganda를 보여주면서 반응을 보면서 여론을 움직임

출처: 인과추론의 데이터과학

SHAP

  • SHapley Additive exPlanations
  • 모든 경우의 수를 다 확인하는 방법 (Combination + Order)
  • Local Interpretability 특성을 가짐 → 사람마다 변수의 coefficient, correlation이 다른 것

출처: 인과추론의 데이터과학

 

  • SHAP은 각 feature에 heterogeneity effect를 제공하니까 causal effect인가? → Wrong
    • 어떤 데이터든, treatment feature는 다른 feature들과 다 상관성이 있기 때문
    • ex. 구매를 한 그룹 vs 구매를 하지 않은 그룹 → charateristics가 완전히 다름 → Causal 아님
    • 그럼 treatment feature와 다른 feature들이 모두 독립적이면 causal일까? → 아직 모름
  • 측정되지 않은 confounding feature들을 해결해야 인과 효과를 측정할 수 있다.

 

Session 13-2

EconML

Intro

  • Potential Outcomes
  • 먼저 모델을 돌려보고 theory/paper를 파보는 것을 추천
  • causal relationship과 structure를 알고 있어야 함
    • potential confounders/controls가 관측되어야 함
      • double ML, doubly robust learning, meta-learners
    • instrumental variable이 있을 때 좋다
      • deep IV
  • A/B testing 환경이 될 때, 사용하는 것을 추천
  • 장점
    • treatment의 heterogeneity effect를 측정할 수 있음 (CATE > ATE)
    • flexible data form을 다룰 수 있음
    • assumption이 적다
  • Uplift 사례: 제한된 예산으로 promotion 효과를 최대화할 수 있음

Implementation

  • 구현 방식

출처: 인과추론의 데이터과학

  • Requirements
    • theory & domain 지식이 modeling을 위해 필수
    • ML/DL causal model은 manual design이 핵심
    • unobserved important confounder가 없어야 함 → 데이터가 중요!
  • advice
    • relevance를 추구한다? → 실험 데이터 + uplift로 시작
    • 좋은 setting을 같은 impact를 추구한다? → 모델을 통한 향상
    • 연구 목적? → Theoretical contribution을 어떻게 derive 할지 고민

Model Choice

  • Mindset
    • DL의 미덕: 왜 잘 되는지 모르겠다. 그런데 잘 되더라. (e.g. BatchNorm)
    • 구현해보고 가장 잘 작동하는 모델을 사용 → Cross-validation
    • Model competetion, Methodological contritubtion은 그게 중요한 분들에게 맡기자! → 나중에 모델들이 언제 잘 작동하는지 데이터가 쌓인다.
    • Application의 value와 impact에 더 초점을 맞추자
  • Time-series data
    • Google’s Bayesian structural time-series
      • trend/seasonal/cyclical을 잘 잡는 장점이 있음
      • 편하지만 관측되지 않은 exogeneous 요인은 잘 맞지 않은 단점이 있음
    • Transfer Entropy
      • multivariate time-series features
      • causal pattern이 깔끔하고 데이터의 품질이 좋을 때 잘 작동함

 

Graph-based Causal Model

  • Bayesian network는 복잡한 관계들을 하나로 담을 수 있음
  • 데이터가 풍부하고, 관측 가능하고 clear 한 relation을 갖고 있다면 추천!

 

Multi-armed Bandits (MAB)

  • traditional reinforcement learning
  • exploration vs exploitation
    • exploration: 안 해본 것을 탐험해 보는 것
    • exploitation: 현재 알고 있는 것 중에서 최선의 결정을 만들어내는 것
  • MAB는 advanced AB-testing으로 볼 수 있음
  • Example

출처: 인과추론의 데이터과학

 

  • Approach
    • Two naive approach
      • random (full exploration): 랜덤 하게 슬롯머신을 고르는 것
      • greedy (full exploitation): 몇 번 시도하고 가장 결과가 좋은 머신만 선택하는 것
    • Epsilon greedy: 동전을 던져서 앞면이 나오면 exploitation, 뒷면이 나오면 exploration을 선택
    • Upper-Confidence-Bound (UCB)
      • 충분한 시도가 쌓여서 신뢰할만한 confidence interval이 생길 때까지 exploration 하는 방법
    • Thompson Sampling
      • distribution에서 샘플을 뽑는 방식 (주로 beta 분포를 사용)
      • 랜덤 하게 샘플 추출 (분포가 높은 곳이 자주 뽑힘) → 가장 높은 선택지를 선택 → 분포 update 반복
      • 많이 사용되는 방법이라 baseline으로 사용됨

 

Reference

반응형

댓글