본문 바로가기
Causal inference

[KSSCI 2021] 인과추론의 데이터 과학 - Session 18

by Night Fury 2023. 10. 15.
인과추론의 데이터과학. (2021, Nov 29). [Session 18-1] 가상의 통제집단 (Synthetic Control) [Video]. YouTube.
인과추론의 데이터과학. (2021, Nov 29). [Session 18-2] 가상의 통제집단 분석 사례 [Video]. YouTube.
인과추론의 데이터과학. (2021, Dec 6). [Session 18-3] 데이터 기반의 인과관계 발견 (Causal Discovery) [Video]. YouTube.

 

Session 18-1

  • synthetic control: 여러 요인들을 결합해서 만든 합성의 control group
    • counterfactual을 모방하기 위해 만든 것
  • Causal effect
    • ITE(individual treatment effect)는 구하기 어려움 → ATE활용
    • 인과추론의 목표: ATET 추론
      • Average Treatment Effect on the Treated
  • Ignorability = Exchangeability = Unconfoundedness = Exogeneity
    • treatment, control group이 treatment를 제외한 모든 것이 동일해야 함
    • PO: Ceteris Paribus
    • SCM: Backdoor/Frontdoor Criterion

Panel Data

  • Panel Data: treatment 전후의 관측 데이터
    • 시간에 대한 인과 관계를 조사하고 모델링하는 데 사용됨
  • DID(Difference-in-Differences) 활용
    • ATET를 구하는 것이 목적
    • treatment의 counterfactual을 구하는 것이 목표
    • treatment 이전의 변수들을 활용
      • 시간에 따라 변하지 않는 요인들을 반영할 수 있음 → treatment가 없었을 때, 즉 counterfactual을 구할 수 있음
      • e.g. 아래 그림에서 파란색 (1, 0) 값을 그대로 가져오는 부분
  • Parallel trends assumption:
    • Ignorability보다 느슨한 가정
    • 정의: treatment, control 그룹은 동일한 추세를 가지고 있어야 함
      • treatment 이후에도 treatment 그룹과 control group은 변화 패턴이 유사하게 유지되어야 함
      • e.g. 아래 그림에서 초록색 Subject 3,4의 평균 변화량 0.5를 그대로 가져오는 부분

출처: 인과추론의 데이터과학

 

Synthetic Control (SC)

  • control 그룹의 조합을 통해서 treatment의 counterfactual을 예측하는 것이 목적
    • control group의 변수를 활용
  • DID의 확장 + 유연한 방법
    • 여러 가지 prediction을 할 수 있음
    • 별도의 가정이 필요 없음
    • ATET까지는 충분히 구할 수 있다는 idea

출처: 인과추론의 데이터과학

 

Case 1. Impact of California Anti-Tobacco Legislation

  • treatet unit: California
  • 1970s 후반부터 parallel 함
  • fixed effect: 절댓값이 중요하지 않고 trend만 중요한 부분 → 시간에 따라 변하지 않는 효과
    • 패널 데이터의 특성을 고려하고 인과관계를 더 정확하게 추론하는 데 도움을 줌
    • 개체 간의 고유한 특성을 제어하여 개체 내 or 시간 내의 변동성을 고려한 회귀 분석을 수행할 수 있음
    • DID에서 중요한 부분
  • Synthetic DID: DID의 fixed effect + Synthetic control의 control unit의 weight을 고려한 방법

출처: 인과추론의 데이터과학

 

Session 18-2

Case 2. Impact of Reunification on West Germany

  • reunification의 counterfactual를 유사한 국가를 통합하여 모방한 사례

출처: 인과추론의 데이터과학

 

How to Construct the Synthetic Control

  • original method: 결과를 직접적으로 예측하기보다 간접적인 방법을 채택
    • predictor를 모방하는 모델을 만드는 것
    • Case 2 기준, inflation rate, 산업 구조, 교육 수준을 모방하는 synthetic control를 만드는 것
    • predictor의 weight과 control group의 weight을 최적화하는 문제
    • Instead of predicting the outcome directly, it aims to choose weights of control units to minimize the difference in the pre-intervention values of predictors of the outcome

출처: 인과추론의 데이터과학

  • 다양한 방법이 있음 (e.g. Lasso, Elastic net ..)
    • 궁극적으로 synthetic control의 큰 목적은 out-of-sample prediction이다.

 

Sensitivity Tests for Synthetic Controls

  • train-test split 접근 활용
    • Train – Test – Treat – Compare (TTTC) process

출처: 인과추론의 데이터과학

 

What if There is No Control Group?

  • DID, Synthetic control 적용 불가능
  • time-series forecasting model을 활용하여 counterfactual을 예측
  • data
    • pre-intervention data → train
    • intervention data → test
    • post-intervention data → predict
  • 구조적인 변화는 유추할 수 없기 때문에, time-series는 한계가 있음
  • control group이 없는 상황에서는 time-series model을 최후의 보루로 사용하는 것을 권장

출처: 인과추론의 데이터과학

 

Case 3. Uber’s Application of Synthetic Control

  • Problems
    • Uber operate in cities with few credit cards
    • difficulties in change and drivers paying service fees
  • Why are A/B tests not feasible in some cases?
    • experiment: tell drivers if a trip is cash
      • hypothesis: some drivers don't like cash trips because of the change
      • want to know
        • trip acceptance rates
        • unpaid service fees
    • Spillover effects: treatment applied to one group affects the other group
      • turns out drivers preferred cash trips -> declined more credit card trips
      • control group received those trips that the treatment group declined
  • Alternative to A/B test
    • Difference-in-differences across cities
    • Synthetic control across cities
  • Main idea of Synthetic control

출처: 인과추론의 데이터과학

  • Form

출처: 인과추론의 데이터과학
출처: 인과추론의 데이터과학

  • Estimate treatment effect

출처: 인과추론의 데이터과학

  • Result - actually works

출처: 인과추론의 데이터과학

 

Case 4. Causal Analysis of GS25 vs CU

 

Requirements

 

Session 18-3

Causal Discovery

  • knowledge discovery
    • theory → evidence (data)
    • evidence (data) → theory
      • ex. 케플러 데이터 패턴을 통해 인과관계를 도출
  • Data generation process: causal graph → data
  • causal discovery: data → causal graph

출처: 인과추론의 데이터과학

  • Overall Structure

출처: 인과추론의 데이터과학

 

 

Causal Markov and Faithfulness Assumptions

  • Causal Markov Assumption: A node is dependent only on its descendants in the graph
    • a node is independent on other variables, conditional on its causes
  • Faithfulness Assumption: Nodes that are causally connected in a particular way in the graph are probabilistically dependent.
    • 인과적으로 연결되어 있으면 확률적으로 dependent해야 함

출처: 인과추론의 데이터과학

 

  • Violation of Faithfulness Assumption
    • Distinct causal paths that have opposite effects could cancel out each other.
    • e.g. A→B→D (+1), A→C→D (-1)이면, 효과가 상쇄됨

출처: 인과추론의 데이터과학

 

Conditional (In-)Dependence (Association)

  • Association이 없다 = de-seperated = independence
  • Before conditioning
    • chain, fork → dependent
    • immorality → independent

출처: 인과추론의 데이터과학

  • After conditioning
    • chain, fork → independent
    • immorality → dependent

출처: 인과추론의 데이터과학

 

Markov Equivalence Class

  • A set of DAGs that encode the same set of conditional independencies.
    • 동일한 conditional independencies를 갖는 graph들의 class를 의미
  • “V” structures (= colliders = immorality) → 핵심적인 역할을 함
    • has only one structure for the same class

출처: 인과추론의 데이터과학

 

Causal Discovery Algorithms

  • Constraint-based algorithms
    • PC algorithm: assume no unobserved confounders
    • FCI algorithm: assume unobserved confounders
  • Score-based algorithms → score를 maximize
    • GES algorithm

출처: 인과추론의 데이터과학

 

1. PC Algorithm

  • Step 1. Start with a complete undirected graph.
  • Step 2. Eliminate edges between variables that are unconditionally independent.
    • X. Y는 independent함 → eliminate
  • Step 3. For each pair of variables having an edge between them, eliminate the edge if they are independent, conditional on a subset of variables with edges to them (increasing the size of subsets 1 to n).
    • X, W 사이에는 direct path가 없음 → eliminate
    • Y, W 사이에는 direct path가 없음 → eliminate
  • Step 4. Identify a “V” structure (collider, immorality) and orient edges.
  • Step 5. Orient the remaining edges not to be a collider (i.e., orientation propagation).

출처: 인과추론의 데이터과학

 

2. FCI Algorithm

  • similar to PC algorithm
  • further assumes that there could be an unmeasured confounder between nodes
    • except the “Y” structures
      • y structure가 있는 부분에서는 unmeasured confounter가 없음
    • 양방향 화살표가 가능함

출처: 인과추론의 데이터과학
출처: 인과추론의 데이터과학

 

3. GES Algorithm

  • 빈 graph에서 시작해서 greedy하게 진행하는 방식
  • Step 1. Start with an empty graph containing no edges.
  • Step 2. Greedily add edges (dependencies) one at a time in the orientation that maximize some fit score, such as Bayesian Information Score (BIC) (the lower, the better fit).
  • Step 3. Map the resulting model to the corresponding Markov equivalence class.
  • Step 4. Continue Steps 2 and 3 until the score can no longer be improved.
  • Step 5. Remove edges one at a time as long as it maximizes the score (e.g., decreases the BIC).
  • Step 6. Continue Step 5 until no further edges can be removed.

 

Conditional Independence Tests

  • Bayesian networks (causal graph)에서 variable의 distribution이 중요함
  • type
    1. Discrete Bayesian networks (categorical variables)
    2. Discrete Bayesian networks (ordered factors)
    3. Gaussian Bayesian networks (continuous normal variables)
    4. Non-Gaussian Bayesian networks (continuous variables)

 

Practical Guidance for Causal Discovery

  • Causal discovery algorithms work asymptotically (i.e., with a large volume of data)
  • Distributions of the variables play a critical role in conditional independence tests
  • Domain knowledge may help the causal discovery

출처: 인과추론의 데이터과학

 

반응형

댓글