[KSSCI 2021] 인과추론의 데이터 과학

인과추론의 데이터과학. (2021, Oct 5). [Session 9-1] 도구 변수 (Instrumental Variable) [Video]. YouTube.
인과추론의 데이터과학. (2021, Oct 5). [Session 9-2] 도구 변수의 활용 사례 [Video]. YouTube.
인과추론의 데이터과학. (2021, Oct 5). [Session 9-3] 도구 변수의 활용 팁 [Video]. YouTube.

Session 9-1

Instrumental Variables

Quasi-Experiment를 하기 어려울 때 이용하는 도구
활용하기가 까다로운 점이 있음 → 적절한 가정을 판단하기 어려움

Three perspectives on causation

Potential outcomes framework
- 인과추론을 방해하는 요인: selection bias
  - treatment 그룹과 control 그룹이 비교 가능하지 않아서 발생
  - 관찰되지 않은 요인은 treatment와 관계가 없어야함 → Ceteris Paribus
Structural causal model
- 인과추론을 방해하는 요인: backdoor path
- do operator → backdoor path 제거 → 인과 효과 추정
Statistics (Regression)
- 인과추론을 방해하는 요인: endogeneity (내생성)
  - 원인 변수와 에러 조건 간에 상관성이 있는 것

⇒ selection bias와 backdoor path 없다 = 원인 변수와 에러 조건 간에 상관관계가 없다

Endogeneity in regression

Exogenous해야 인과관계를 해석가능 → Unbiased Estimate
Error term: 관찰되지 않은 요인

현실적으로 Exogenous한 원인 변수를 찾는 것이 가능할까? → 쉽지 않음
- 모든 것은 Endogenous(내인성)하다고 가정 ⇒ 귀무가설

Instrumental Variable (IV)

독립 변수는 아래 그림과 같이 error term과 Exogenous한 부분과 Endogenous로 나뉘어질 것
- 이것을 인위적으로 가려내는 것이 도구 변수의 역할
- 원하는 부분(Exogenous)만 가려내기 때문에 도구 변수로 불림

Approach 1. Two-Stage Least squares

Stage 1: 도구 변수(\(Z\))로 독립 변수(\(X\))를 예측 ⇒ \(\hat{X}\)
- \(\hat{X} = a_0 + a_1Z + \epsilon\)
  - \(\epsilon\) : error term
Stage 2: 예측된 독립 변수(\(\hat{X}\))로 종속 변수(\(Y\))를 예측
- \(Y = b_0 + b_1\hat{X} + \epsilon'\)

Approach 2. Control Function

Endogenous한 부분을 통제 변수로 넣는 방식
- \(\epsilon\): residual
잔차(residual)을 conditioning한다면 conditional Exogeneous가 될 수 있음
Basic idea: 아래 두 식의 error term이 상관관계가 있다.
- \(X= \gamma Z + v\)
- \(Y=\beta X + u\)
\(E(Y|Z,v) = \beta E(X|Z,v) + E(u|Z,v) = \beta X + E(u|v) = \beta X + \rho v\)
- \(Z\)는 \(u\)와 독립적이어야 도구 변수가 Exogeneous한 부분만 예측 가능 ⇒ \(E(u|Z,v) = E(u|v)\)
- \(\rho\) : \(corr(u, v)\)
Example: Heckman-type selection model → 계량경제학에서 중요한 개념
- Stage 1: sample selection(binary)을 결정 (probit model)
  - \(Pr(S=1) = \phi{(\gamma Z + v)}\)
- Stage 2: truncated model
  - 정규분포를 따르는 probit model하에서, control function을 inverse Mills ratio로 변환 가능
  - \(Y = \beta X + Controls + u\)
    → \(E(Y|S=1) = \beta X + \rho\lambda\)
    → \(Y = \beta X + \rho\lambda + \epsilon\)
    → \(E(Y|S=1) = \beta X + E(u|S=1)\)

Identification Assumption for IV

Identification Assumption: 연구 디자인에서 선택 편향을 없앨 수 있는 가정
가정
1. 도구변수로 예측한 독립 변수도 error term과 상관관계가 없음 → 도구변수가 error term과 상관관계가 없어야함
2. 도구변수는 독립 변수(원인 변수)에 대해 충분히 설명 가능해야함

Violation을 야기하는 case

Exclusion Restriction
- confounder
- direct effect of IV

Exogeneity assumption
- other mediators between IV and the outcome
- 통계적으로 보면 \(U, U_1, U_2\)는 모두 error term으로 고려가 되기 때문에 Exclusion Restriction와 Exogeneity assumption는 크게 구분되지 않음

Relevance assumption
- weak instrument : 도구변수가 원인 변수의 너무 작은 부분만 예측하는 경우
  - 정교하게 Exogeneous한 부분만 잘라내면 문제가 되지 않음
  - Exclusion Restriction과 Exogeneity assumption과 같이 다른 가정이 위배되면 문제점이 크게 증폭됨
- 현실에서는 어떤 부분이 Endogeneous하고 Exogeneous한지 모르기 때문에 어느 정도 오차가 생길 수 있음 → 오차에 robust하기 위해서는 weak instrument를 피해야함
- 도구변수가 너무 강하게 원인 변수를 예측하면 Endogenous할 수 있음

Local Average Treatment Effect (LATE)

원인 변수로 추정된 효과: ATE
도구변수로 추정된 효과: LATE (≠ ATE) → 도구 변수의 한계
- Exogeneous한 부분만 떼어내서 추정한 결과이기 때문
- Defiers가 없는 상태에서 추정한 ATE
  - never takers: treatment를 받지 않기 때문에 관심 없음
  - always takers + compliers 조합
Compliers: 도구변수에 따라 변화되는 그룹
Defiers: 도구변수와 반대로 발생하는 그룹
- monotonicity assumption : defiers가 없어야함
LATE = ATE가 되기 위한 조건
- always takers가 없어야함
- homogeneity assumption: 모든 subject에 대해서 treatment가 같아야함
- randomness of IVs

Session 9-2

Example 1. Economic growth

문제: 1990년대 사유재산 제도와 계약 제도가 GDP(경제 성장)에 미치는 영향
- 관찰할 수 없는 요인은 제도에 영향을 미칠 수 있음 → 원인 변수들은 내생적 (Endogeneous)
도구변수 활용
- 사유재산 제도: 침략국의 식민지에서의 사망률과 인구 밀도 활용
- 계약 제도: 유럽 대륙 국가들의 식민 지배 여부 활용
  - 미국 지배 → 영미법 (판례 중심) ⇒ 발전됨
  - 프랑스, 스페인 등 지배 → 대륙법 (고정된 성문법을 따름)
    - 한국: 네덜란드의 영향을 받은 일본의 영향
결과
- 사유재산 제도가 경제 성장에 큰 영향을 미쳤다.
- 사유재산 제도가 미치는 인과 효과를 배제하면 저소득 국가의 경제 규모는 유럽, 아메리카 국가와 유의미한 차이가 없다고 밝힘

Example 2. Noncompliance in Randomized Experiments

무작위 실험에 도구변수를 활용하는 이유: Noncompliance 문제를 해결하기 위함
- Noncompliance 문제: treatment 그룹의 일부가 실제로 treatment를 받지 않을 때 발생
Intention-to-Treat (ITT) effect
- treatment 그룹과 control 그룹 간의 차이를 비교함으로써 추정하고자 의도하는 효과
재택 근무의 효과 실험 (중국에서 진행)
- 문제: 재택 근무가 노동자 생산성에 미치는 영향
- 도구변수: 뽑기로 treatment(재택 여부)를 결정
- 원인 변수: 재택 효과
- 결과 변수: 노동자 생산성

Example 3. Regional IVs

문제 1: 인터넷 보급이 혐오 범죄에 미치는 영향
- 도구변수: 지형적인 기울기
  - 언덕이 많을 수록 인터넷 선을 설치하기 까다롭다고 생각
문제 2: 모바일 앱 채택이 온/오프라인 제품 구매에 미치는 영향
- 도구변수: 소비자가 사는 지역에서의 기지국 숫자
  - 미국은 지역에 따라 신호가 안잡히는 곳이 많음

Example 4. Geographical Proximity-Based IVs

지리적 근접성 기준
문제 1: ERP의 도입이 관리자의 관리 범위에 미치는 영향
- 도구변수: 독일에 있는 SAP 본사와의 거리 (유럽에서 진행한 연구)
문제 2: 독일에서 개신교의 확산이 경제 성장에 미치는 영향
- 도구변수: 루터의 도시인 부텐베르크와의 거리
  - 루터의 종교 개혁이 부텐베르크에서 시작됨

Example 5. Macro/Cohort Trends as IVs

문제 1: 도시에서의 실업률이 온라인 구직 시장에서의 노동자 공급에 미치는 영향
- 도구변수: 미국 전체 고용률의 trend (Macro)
문제 2: 모바일 로열티 프로그램 가입 여부가 로열티 포인트 사용에 미치는 영향
- 도구변수: 해당 고객과 같은 지역에 사는 같은 코호트의 5G 가입률

Example 6. Peers’ Environments as IVs

문제 1: 친구의 러닝 행동이 사용자의 러닝 행동에 미치는 영향
- 도구변수: 친구가 사는 지역의 날씨
문제 2: 친구의 체크인이 사용자의 방문에 미치는 영향
- 도구변수: 친구의 친구의 체크인 (친구의 친구는 사용자에게 남)

Session 9-3

Reduced form

도구변수로 바로 결과변수를 예측하려고 하는 것
- \(Y = \gamma_0 + \gamma_1Z + \delta\)
Exclusion Restriction에 따르면 도구변수가 원인 변수를 통해서만 결과 변수에 영향을 미쳐야한다고 했음
- 도구변수가 결과 변수에 영향을 미쳐야 의미가 있음
- 아래 그림에서 reduced form(\(\gamma_1\))가 0이라면 \(\beta_1\)도 0

IV 분석을 리포트하는 법

Step 1: 도구변수에 대해 통계적인 테스트 수행
Step 2: 도구변수의 이론적 타당성을 정당화
Step 3: 도구변수에 대해 robustness check 또는 sensitivity analysis 진행
Stpe 4: LATE or ATE 중 어떤 것을 추정하는 것인지에 대해 명확하게 discuss

통계적 테스트

relevance assumption은 통계적으로 검증이 가능 (ex. Stock-Yogo가 개발한 통계 활용)
- relevance assumption: not weak instrument
exclusion restriction과 exogeneity assumption은 증명이 불가능함
- 도구변수가 error term과의 상관관계가 없어야한다는 것
- 모든 통계적 테스트들은 주관적임
  - 도구변수의 적절성을 검증하기 위해 도구변수의 적절성을 가정해야할 수 밖에 없음
  - ex. Hausman test (하우스만 테스트)
    - 내생성이 없다고 가정한 상태에서 OLS의 추정치와 내생성이 있다고 가정한 상태에서 도구변수의 추정치가 얼마나 다른지 테스트한 것
    - 중요한 가정: 도구변수가 완전하다
      ⇒ 사용하지 않는 것을 추천 (모든 것은 내생성을 가진다고 가정하는 것이 현실적임)
  - ex. Sargan-Hansen J test (over-identifying)
    - exclusion restriction, exogeneity assumption에 대한 테스트
    - K-1개의 도구변수를 바탕으로 계산한 error term(stage2)과 도구변수의 상관관계를 검증
    - 중요한 가정: 도구변수의 적절성을 검증하기 위해 1개 뺀 나머지 도구변수가 완전하다고 가정
      ⇒ 필수적으로 report하는 것이 좋다.

도구변수의 이론적 타당성을 정당화

통계적인 테스트가 도구변수 활용에 있어서 필요충분조건은 아님
대부분의 논문은 이론적 타당성을 정당화하는 것이 대다수임 → 이론적 뒷받침이 중요함
causal diagram을 활용하는 것도 도움이 됨

저작자표시 비영리 변경금지

'Causal inference' 카테고리의 다른 글

[KSSCI 2021] 인과추론의 데이터 과학 - Session 11 (0)	2023.09.05
Part 1. 01~02 (0)	2023.08.30
[KSSCI 2021] 인과추론의 데이터 과학 - Session 7/8 보충 (0)	2023.08.22
[KSSCI 2021] 인과추론의 데이터 과학 - 사전학습자료 (0)	2023.08.15
[KSSCI 2021] 인과추론의 데이터 과학 - Session 7 (0)	2023.08.08

NightFury

[KSSCI 2021] 인과추론의 데이터 과학 - Session 9

Session 9-1

Instrumental Variables

Three perspectives on causation

Endogeneity in regression

Instrumental Variable (IV)

Approach 1. Two-Stage Least squares

Approach 2. Control Function

Identification Assumption for IV

Violation을 야기하는 case

Local Average Treatment Effect (LATE)

Session 9-2

Example 1. Economic growth

Example 2. Noncompliance in Randomized Experiments

Example 3. Regional IVs

Example 4. Geographical Proximity-Based IVs

Example 5. Macro/Cohort Trends as IVs

Example 6. Peers’ Environments as IVs

Session 9-3

Reduced form

IV 분석을 리포트하는 법

통계적 테스트

도구변수의 이론적 타당성을 정당화

'Causal inference' 카테고리의 다른 글

댓글

티스토리툴바

[KSSCI 2021] 인과추론의 데이터 과학 - Session 9

Session 9-1

Instrumental Variables

Three perspectives on causation

Endogeneity in regression

Instrumental Variable (IV)

Approach 1. Two-Stage Least squares

Approach 2. Control Function

Identification Assumption for IV

Violation을 야기하는 case

Local Average Treatment Effect (LATE)

Session 9-2

Example 1. Economic growth

Example 2. Noncompliance in Randomized Experiments

Example 3. Regional IVs

Example 4. Geographical Proximity-Based IVs

Example 5. Macro/Cohort Trends as IVs

Example 6. Peers’ Environments as IVs

Session 9-3

Reduced form

IV 분석을 리포트하는 법

통계적 테스트

도구변수의 이론적 타당성을 정당화

'Causal inference' 카테고리의 다른 글

관련글

댓글

티스토리툴바