본문 바로가기
Causal inference

[KSSCI 2021] 인과추론의 데이터 과학 - Session 9

by Night Fury 2023. 8. 29.
인과추론의 데이터과학. (2021, Oct 5). [Session 9-1] 도구 변수 (Instrumental Variable) [Video]. YouTube.
인과추론의 데이터과학. (2021, Oct 5). [Session 9-2] 도구 변수의 활용 사례 [Video]. YouTube.
인과추론의 데이터과학. (2021, Oct 5). [Session 9-3] 도구 변수의 활용 팁 [Video]. YouTube.

 

Session 9-1

Instrumental Variables

  • Quasi-Experiment를 하기 어려울 때 이용하는 도구
  • 활용하기가 까다로운 점이 있음 → 적절한 가정을 판단하기 어려움

Three perspectives on causation

  • Potential outcomes framework
    • 인과추론을 방해하는 요인: selection bias
      • treatment 그룹과 control 그룹이 비교 가능하지 않아서 발생
      • 관찰되지 않은 요인은 treatment와 관계가 없어야함 → Ceteris Paribus
  • Structural causal model
    • 인과추론을 방해하는 요인: backdoor path
    • do operator → backdoor path 제거 → 인과 효과 추정
  • Statistics (Regression)
    • 인과추론을 방해하는 요인: endogeneity (내생성)
      • 원인 변수와 에러 조건 간에 상관성이 있는 것

⇒ selection bias와 backdoor path 없다 = 원인 변수와 에러 조건 간에 상관관계가 없다

Endogeneity in regression

  • Exogenous해야 인과관계를 해석가능 → Unbiased Estimate
  • Error term: 관찰되지 않은 요인

출처: 인과추론의 데이터 과학

  • 현실적으로 Exogenous한 원인 변수를 찾는 것이 가능할까? → 쉽지 않음
    • 모든 것은 Endogenous(내인성)하다고 가정 ⇒ 귀무가설

출처: 인과추론의 데이터 과학

 

Instrumental Variable (IV)

  • 독립 변수는 아래 그림과 같이 error term과 Exogenous한 부분과 Endogenous로 나뉘어질 것
    • 이것을 인위적으로 가려내는 것이 도구 변수의 역할
    • 원하는 부분(Exogenous)만 가려내기 때문에 도구 변수로 불림

출처: 인과추론의 데이터 과학

 

Approach 1. Two-Stage Least squares

  • Stage 1: 도구 변수(\(Z\))로 독립 변수(\(X\))를 예측 ⇒ \(\hat{X}\) 
    • \(\hat{X} = a_0 + a_1Z + \epsilon\)
      • \(\epsilon\) : error term
  • Stage 2: 예측된 독립 변수(\(\hat{X}\))로 종속 변수(\(Y\))를 예측
    • \(Y = b_0 + b_1\hat{X} + \epsilon'\)

출처: 인과추론의 데이터 과학

 

Approach 2. Control Function

  • Endogenous한 부분을 통제 변수로 넣는 방식
    • \(\epsilon\): residual
  • 잔차(residual)을 conditioning한다면 conditional Exogeneous가 될 수 있음
  • Basic idea: 아래 두 식의 error term이 상관관계가 있다.
    • \(X= \gamma Z + v\)
    • \(Y=\beta X + u\)
  • \(E(Y|Z,v) = \beta E(X|Z,v) + E(u|Z,v) = \beta X + E(u|v) = \beta X + \rho v\)
    • \(Z\)는 \(u\)와 독립적이어야 도구 변수가 Exogeneous한 부분만 예측 가능 ⇒ \(E(u|Z,v) = E(u|v)\)
    • \(\rho\) : \(corr(u, v)\)
  • Example: Heckman-type selection model → 계량경제학에서 중요한 개념
    • Stage 1: sample selection(binary)을 결정 (probit model)
      • \(Pr(S=1) = \phi{(\gamma Z + v)}\)
    • Stage 2: truncated model
      • 정규분포를 따르는 probit model하에서, control function을 inverse Mills ratio로 변환 가능
      • \(Y = \beta X + Controls + u\)
        → \(E(Y|S=1) = \beta X + \rho\lambda\)
        → \(Y = \beta X + \rho\lambda + \epsilon\)
        → \(E(Y|S=1) = \beta X + E(u|S=1)\)

출처: 인과추론의 데이터 과학

 

Identification Assumption for IV

  • Identification Assumption: 연구 디자인에서 선택 편향을 없앨 수 있는 가정
  • 가정
    1. 도구변수로 예측한 독립 변수도 error term과 상관관계가 없음 → 도구변수가 error term과 상관관계가 없어야함
    2. 도구변수는 독립 변수(원인 변수)에 대해 충분히 설명 가능해야함

Violation을 야기하는 case

  • Exclusion Restriction
    • confounder
    • direct effect of IV

출처: 인과추론의 데이터 과학

  • Exogeneity assumption
    • other mediators between IV and the outcome
    • 통계적으로 보면 \(U, U_1, U_2\)는 모두 error term으로 고려가 되기 때문에 Exclusion Restriction와 Exogeneity assumption는 크게 구분되지 않음

출처: 인과추론의 데이터 과학

  • Relevance assumption
    • weak instrument : 도구변수가 원인 변수의 너무 작은 부분만 예측하는 경우
      • 정교하게 Exogeneous한 부분만 잘라내면 문제가 되지 않음
      • Exclusion Restriction과 Exogeneity assumption과 같이 다른 가정이 위배되면 문제점이 크게 증폭됨
    • 현실에서는 어떤 부분이 Endogeneous하고 Exogeneous한지 모르기 때문에 어느 정도 오차가 생길 수 있음 → 오차에 robust하기 위해서는 weak instrument를 피해야함
    • 도구변수가 너무 강하게 원인 변수를 예측하면 Endogenous할 수 있음

출처: 인과추론의 데이터 과학

 

Local Average Treatment Effect (LATE)

  • 원인 변수로 추정된 효과: ATE
  • 도구변수로 추정된 효과: LATE (≠ ATE) → 도구 변수의 한계
    • Exogeneous한 부분만 떼어내서 추정한 결과이기 때문
    • Defiers가 없는 상태에서 추정한 ATE
      • never takers: treatment를 받지 않기 때문에 관심 없음
      • always takers + compliers 조합
  • Compliers: 도구변수에 따라 변화되는 그룹
  • Defiers: 도구변수와 반대로 발생하는 그룹
    • monotonicity assumption : defiers가 없어야함
  • LATE = ATE가 되기 위한 조건
    • always takers가 없어야함
    • homogeneity assumption: 모든 subject에 대해서 treatment가 같아야함
    • randomness of IVs

출처: 인과추론의 데이터 과학

 

Session 9-2

Example 1. Economic growth

  • 문제: 1990년대 사유재산 제도와 계약 제도가 GDP(경제 성장)에 미치는 영향
    • 관찰할 수 없는 요인은 제도에 영향을 미칠 수 있음 → 원인 변수들은 내생적 (Endogeneous)
  • 도구변수 활용
    • 사유재산 제도: 침략국의 식민지에서의 사망률과 인구 밀도 활용
    • 계약 제도: 유럽 대륙 국가들의 식민 지배 여부 활용
      • 미국 지배 → 영미법 (판례 중심) ⇒ 발전됨
      • 프랑스, 스페인 등 지배 → 대륙법 (고정된 성문법을 따름)
        • 한국: 네덜란드의 영향을 받은 일본의 영향
  • 결과
    • 사유재산 제도가 경제 성장에 큰 영향을 미쳤다.
    • 사유재산 제도가 미치는 인과 효과를 배제하면 저소득 국가의 경제 규모는 유럽, 아메리카 국가와 유의미한 차이가 없다고 밝힘

출처: 인과추론의 데이터 과학

Example 2. Noncompliance in Randomized Experiments

  • 무작위 실험에 도구변수를 활용하는 이유: Noncompliance 문제를 해결하기 위함
    • Noncompliance 문제: treatment 그룹의 일부가 실제로 treatment를 받지 않을 때 발생
  • Intention-to-Treat (ITT) effect
    • treatment 그룹과 control 그룹 간의 차이를 비교함으로써 추정하고자 의도하는 효과
  • 재택 근무의 효과 실험 (중국에서 진행)
    • 문제: 재택 근무가 노동자 생산성에 미치는 영향
    • 도구변수: 뽑기로 treatment(재택 여부)를 결정
    • 원인 변수: 재택 효과
    • 결과 변수: 노동자 생산성

출처: 인과추론의 데이터 과학

Example 3. Regional IVs

  • 문제 1: 인터넷 보급이 혐오 범죄에 미치는 영향
    • 도구변수: 지형적인 기울기
      • 언덕이 많을 수록 인터넷 선을 설치하기 까다롭다고 생각
  • 문제 2: 모바일 앱 채택이 온/오프라인 제품 구매에 미치는 영향
    • 도구변수: 소비자가 사는 지역에서의 기지국 숫자
      • 미국은 지역에 따라 신호가 안잡히는 곳이 많음

출처: 인과추론의 데이터 과학

Example 4. Geographical Proximity-Based IVs

  • 지리적 근접성 기준
  • 문제 1: ERP의 도입이 관리자의 관리 범위에 미치는 영향
    • 도구변수: 독일에 있는 SAP 본사와의 거리 (유럽에서 진행한 연구)
  • 문제 2: 독일에서 개신교의 확산이 경제 성장에 미치는 영향
    • 도구변수: 루터의 도시인 부텐베르크와의 거리
      • 루터의 종교 개혁이 부텐베르크에서 시작됨

출처: 인과추론의 데이터 과학

Example 5. Macro/Cohort Trends as IVs

  • 문제 1: 도시에서의 실업률이 온라인 구직 시장에서의 노동자 공급에 미치는 영향
    • 도구변수: 미국 전체 고용률의 trend (Macro)
  • 문제 2: 모바일 로열티 프로그램 가입 여부가 로열티 포인트 사용에 미치는 영향
    • 도구변수: 해당 고객과 같은 지역에 사는 같은 코호트의 5G 가입률

출처: 인과추론의 데이터 과학

Example 6. Peers’ Environments as IVs

  • 문제 1: 친구의 러닝 행동이 사용자의 러닝 행동에 미치는 영향
    • 도구변수: 친구가 사는 지역의 날씨
  • 문제 2: 친구의 체크인이 사용자의 방문에 미치는 영향
    • 도구변수: 친구의 친구의 체크인 (친구의 친구는 사용자에게 남)

출처: 인과추론의 데이터 과학

 

Session 9-3

Reduced form

  • 도구변수로 바로 결과변수를 예측하려고 하는 것
    • \(Y = \gamma_0 + \gamma_1Z + \delta\)
  • Exclusion Restriction에 따르면 도구변수가 원인 변수를 통해서만 결과 변수에 영향을 미쳐야한다고 했음
    • 도구변수가 결과 변수에 영향을 미쳐야 의미가 있음
    • 아래 그림에서 reduced form(\(\gamma_1\))가 0이라면 \(\beta_1\)도 0

출처: 인과추론의 데이터 과학

IV 분석을 리포트하는 법

  • Step 1: 도구변수에 대해 통계적인 테스트 수행
  • Step 2: 도구변수의 이론적 타당성을 정당화
  • Step 3: 도구변수에 대해 robustness check 또는 sensitivity analysis 진행
  • Stpe 4: LATE or ATE 중 어떤 것을 추정하는 것인지에 대해 명확하게 discuss

통계적 테스트

  • relevance assumption은 통계적으로 검증이 가능 (ex. Stock-Yogo가 개발한 통계 활용)
    • relevance assumption: not weak instrument
  • exclusion restriction과 exogeneity assumption은 증명이 불가능함
    • 도구변수가 error term과의 상관관계가 없어야한다는 것
    • 모든 통계적 테스트들은 주관적임
      • 도구변수의 적절성을 검증하기 위해 도구변수의 적절성을 가정해야할 수 밖에 없음
      • ex. Hausman test (하우스만 테스트)
        • 내생성이 없다고 가정한 상태에서 OLS의 추정치와 내생성이 있다고 가정한 상태에서 도구변수의 추정치가 얼마나 다른지 테스트한 것
        • 중요한 가정: 도구변수가 완전하다
          ⇒ 사용하지 않는 것을 추천 (모든 것은 내생성을 가진다고 가정하는 것이 현실적임)
      • ex. Sargan-Hansen J test (over-identifying)
        • exclusion restriction, exogeneity assumption에 대한 테스트
        • K-1개의 도구변수를 바탕으로 계산한 error term(stage2)과 도구변수의 상관관계를 검증
        • 중요한 가정: 도구변수의 적절성을 검증하기 위해 1개 뺀 나머지 도구변수가 완전하다고 가정
          ⇒ 필수적으로 report하는 것이 좋다.

도구변수의 이론적 타당성을 정당화

  • 통계적인 테스트가 도구변수 활용에 있어서 필요충분조건은 아님
  • 대부분의 논문은 이론적 타당성을 정당화하는 것이 대다수임 → 이론적 뒷받침이 중요함
  • causal diagram을 활용하는 것도 도움이 됨

출처: 인과추론의 데이터 과학

반응형

댓글