[KSSCI 2021] 인과추론의 데이터 과학

인과추론의 데이터과학. (2021, Jul 7). [Session 2-1] 인과추론을 위한 연구 디자인[Video]. YouTube.
인과추론의 데이터과학. (2021, Jul 7). [Session 2-2] 인과추론의 정석: 무작위 통제실험 [Video]. YouTube.
인과추론의 데이터과학. (2021, Jul 7). [Session 2-3] 실험 아닌, 실험 같은 준실험 [Video]. YouTube.
인과추론의 데이터과학. (2021, Jul 7). [Session 2-4] 준실험 분석도구: 이중차분법 & 회귀불연속 [Video]. YouTube.

Session 2-1

Causal Hierarchy of Research Design

Meta-Analysis:
- 인과추론의 영역을 종합적으로 분석
- 인과추론의 수준이 가장 높음
Randomized Experiment (Randomized Controlled Trial; RCT)
- 현실 상황에서 하기 어려운 경우가 많음
Quasi-Experiment
- 준실험 방법
- 특정 가정하에서, Randomized Experiment에 가까운 인과추론을 할 수 있음
Instrumental Variable
- 내생성을 인위적으로 제거하기 위한 도구 변수를 활용
- 실제 상황에서 도구 변수를 찾는 것은 어려움
Designed Regression
- 어떤 통제변수를 넣을 것인지 설계
  - 선택 편향을 모두 없애는 것은 쉽지 않음
- Causal Diagram 활용
Regression
- 단순 회귀 분석
Descriptive statistics
- 단순 기술통계값 (평균, 분산 등)

Session 2-2

Random Assignment

큰 수의 법칙(Law of large numbers): 샘플 수가 커지면, 평균이 이론적인 확률에 가까워짐
treatment, control 그룹으로 분리할 때, 실험 참가자의 특성이 균일하게 배정
- 샘플 수가 크다는 조건이 필요 (research context마다 다름)
- 비교가능한지 체크하는 것이 중요!

Example of Randomized Experiments

실험 내용: 교실 내에서 노트북이나 태블릿을 사용하는 것이 기말고사 성적과 어떤 인과관계가 있는지 확인
treatment: 교실 내에서 컴퓨터 사용 여부
실험 조건: 나머지 요인 (성별, 성적 등)은 평균적으로 큰 차이가 없어야 함 (= ceteris paribus)
- ceteris paribus: 다른 모든 조건이 동일하다면

다른 조건은 treatment별 비슷하게 분포된 것을 알 수 있다.
main treatment의 경우 차이가 발생하는 것을 알 수 있다. (ex. 컴퓨터 사용 여부)

실험 결과: 교실 내에서 노트북이나 태블릿을 사용하는 것이 기말고사 성적을 유의하게 낮추는 것으로 나타남
Demographic controls를 써도 인과효과가 미미했음
- demographic controls: 특정 인구 집단의 특성이나 구성을 설명하거나 다른 변수들의 영향을 분리하기 위해 사용되는 변수들을 의미 (ex. 연령, 성별, 소득 수준)
- random assignment가 얼마나 잘 되었는지 간접적으로 판단 가능

Random Assignment
- 복잡한 통계모형이 불필요한 장점이 있음
- 좋지 않은 사례: 이가탄
  - 정상적인 사람이 control 그룹에 더 많았음
  - 애초에 비교 분석이 불가능한 대상들로 실험을 했음
- 흔히 기업에서 A/B test로 많이 쓰임

Session 2-3

Quasi-Experiment: 실험과 유사한 상황을 찾아서 마치 실험과 같은 비슷한 분석을 할 수 있음

Randomized Experiment VS Quasi-Experiment

treatment, control 그룹을 배정하는 방식의 차이
- Randomized Experiment: random assignment
- Quasi-Experiment:
  - Self-selection: 연구 대상들이 스스로 treatment를 받을지 말 것인지 결정
    - DID (Difference In Difference) 활용 + Matching 방법 결합
  - Exogenous Shock: 외부 요인에 의해 control, treatment 그룹으로 나뉘는 경우
    - 일반적으로 자연 실험으로 부름
    - DID (Difference In Difference) 활용 + Matching 방법 결합
  - Discontinuity: 임의의 경계값을 기준으로 control, treatment 그룹으로 나뉘는 경우
    - RD(Regression Discontinuity) 활용
한계점
- treatment, control 그룹을 명확하게 나누기 어려움 (ex. COVID19)
- 전후의 데이터를 관찰할 수 없다면 Quasi Experiment를 활용하기 어려움
- random 하게 배정하지 않았기 때문에 control 그룹이 treatment가 없을 때의 treatment 그룹과 얼마나 유사한지 증명해야 함
해결 방법
- instrumental variable: 도구 변수를 활용한 분석
  - 원인 변수를 예측할 수 있고 오차항과 연관성이 없는 변수를 찾는 것
- Selection on Observables: 관찰할 수 있는 변수들로 선택 편향을 제거하는 방법
  - Matching: 가지고 있는 변수를 양 집단 간에 균일하게 만드는 것으로 변수의 효과를 통제하는 방법
    - 값 자체를 균등하게 만드는 것으로 통제
    - 샘플 숫자가 많이 줄어들 수 있음 → 샘플 숫자가 적다면 사용하기 어려울 수 있음
  - Regression: 통제변수와 결과변수 간에 특정한 functional form이 있다고 가정 (ex. 선형 관계)
    - 통계적인 추정에 있어서 효율적임
    - 샘플 숫자에 변화가 없음

Example (Exogenous Shock)

실험: 셰일붐에 의해 정의된 treatment, control 그룹이 local finance에 대한 접근성을 제외하고 다른 점이 얼마나 유사할까?
treatment 그룹: 미국에서 셰일가스 유전이 발견되고 개발된 지역
control 그룹: 미국에서 셰일가스 유전이 발견되지 않은 지역
어느 정도 random 하게 배정한 것과 유사한 특성을 가지는 것으로 볼 수 있음 → Natural experiment

Example (Self-Selection)

실험: 기업 소셜미디어에 소비자들이 참여한 것이 회사 웹사이트에 방문한 것과 어떠한 영향이 있을까?
treatment 그룹: treatment(ex. reply, like)를 한 소비자
control 그룹: treatment를 하지 않은 소비자
연구 대상이 직접 treatment를 선택
어떤 의도를 가지고 소셜미디어에 참여를 한 것인지 알기 어려움

실험: 소셜미디어에서 입소문의 영향 측정
treatment 그룹: 내 트위터를 팔로우 한 사람 중에서 리트윗 한 기업을 팔로우한 팔로워
control 그룹: 내 트위터를 팔로우 한 사람 중에서 리트윗한 기업을 팔로우하지 않은 팔로워
위 웹사이트 방문 사례보다 상대적으로 안전함
- treatment, control 그룹 모두 내 팔로워기 때문에, 어느 정도 비슷할 것으로 판단

Exogenous Shock VS Self-selection

ceteris paribus를 증명하는 강도의 차이
- self-selection이 더 엄밀한 증명을 요구함
self-selection 증명 방법
- sensitivity test (민감도 분석): 특정 변수들이 모델 결과에 미치는 영향을 측정
  - 모델에 사용된 입력 변수들이나 가정들에 대해 변화를 가해보는 과정
  - 모델이 입력 변수들의 변화에 얼마나 민감하게 반응하는지 평가
- robustness check (탄력성 검증): 다양한 조건에서 결과가 일관성을 유지하는지 확인
  - 모델이나 분석 결과가 다른 조건이나 가정들에 대해 얼마나 견고하게 유지되는지 확인
  - 모델이 특정 가정들에 너무 의존하지 않고, 다양한 조건에서도 일관성을 유지하는지 평가
  - 모델의 결과가 신뢰성 있고 안정적인지 확인하는데 도움이 됨

Example (Discontinuity)

실험: 음주와 건강 문제
- 미국에서는 음주 가능 나이가 21세
treatment 그룹: 21세 이상
control 그룹: 21세 미만

Session 2-4

Difference in Difference (DID)

이중 차분
- 첫 번째 차분: Treatment 그룹의 전후의 변화
- 두 번째 차분: (Treatment 그룹의 전후의 변화) - (Control 그룹의 전후의 변화)
Potential Outcomes Framework에서 중요한 도구
- Counterfactual은 관찰할 수가 없음
- Counterfactual과 가까운 control 그룹을 찾아서 시간에 따른 변화량으로 counterfactual을 추정하는 것

핵심 질문:
- control 그룹이 counterfactual과 얼마나 유사한가?
- 전후 비교를 왜 하는가?
  - After treatment만 안다면 control 그룹이 counterfactual과 얼마나 유사한지 알기가 어려움

Identification Assumption

parallel trends assumption
- 실험군과 대조군의 이전 트렌드가 평행해야 함
- 실험군과 대조군은 개입 전 결과의 ‘트렌드’가 같아야 함 (=트렌드가 비교 가능해야 함)
- 트렌드의 위험성
  - 광고 유무와 관계없이 발생한 트렌드를 마치 광고 효과로 착각할 수 있음
개입이 있는 동안 매출에 영향을 줄 만한 ‘다른 변화’가 발생하면 안 됨
- 개입과 같은 타이밍에 결과에 영향을 줄 만한 다른 변화가 실험군과 대조군에 별개로 발생하지 않아야 함

Matching techniques

treatment, control 그룹을 평균적으로 유사하게 조정할 수 있음
- ex. 남자는 남자와, 여자는 여자와, 키 큰 사람은 키 큰 사람과 매칭
2가지 접근법
- Propensity score matching (PSM)
- Coarsened exact matching (CEM)

Propensity score matching

propensity score를 계산하고 점수가 유사한 샘플들끼리 매칭을 하는 아이디어
propensity score: treatment 그룹에 속할 확률
probit model:
- probit: probability + unit의 혼성어
- 종속 변수가 이항적인 값을 가지는 경우에 사용되는 확률 모델링 방법
  - 누군가 어떤 사건이 발생할 확률을 예측하거나 두 개의 범주 중 하나에 속하는 확률을 추정하는 데 사용됨
- 이항 로지스틱 회귀와 유사한 모델링 접근법
- 종속 변수와 독립 변수들 사이의 관계를 파악하고 예측을 수행하는 데 사용됨
가장 많이 활용된 매칭 방법
변수가 굉장히 많다면, propensity score만으로 매칭을 하기 때문에 차이가 많이 생길 수 있음

Coarsened exact matching

Exact matching
- PSM보다 직관적인 방법
- 모든 변수가 동일하도록 매칭하는 방법
- 변수가 많아지면 값이 정확히 똑같은 샘플을 찾기가 어려움
- 거의 활용하기 어려움
Coarsened exact matching
- 입력 변수들을 미리 정해진 구간(bin)으로 나눔 → 변수들을 더 간단하고 적은 수의 그룹으로 만듦
- 그 후, exact matching을 함

Regression Discontinuity (RD)

discontinuous jump를 활용
Running variable에 대한 functional form에 대해서 민감한 방법
RD는 running variable에 대한 모델링이 핵심
- discontinuous jump가 없을 때의 상황을 모델링해서 counterfactual을 계산
- counterfactual과 실제 값과의 차이를 바탕으로 treatment effect를 구하는 것
RD 예시

Reference

ceteris paribus
나카무로 마키코, 쓰가와 유스케, 『원인과 결과의 경제학』, 윤지나, 리더스북(2018)
Probit Model 이란?
Probit regression 설명
회귀 단절 모형을 활용한 전후 비교 분석

저작자표시 비영리 변경금지 (새창열림)

'Mathematics > Causal inference' 카테고리의 다른 글

[KSSCI 2021] 인과추론의 데이터 과학 - 사전학습자료 (0)	2023.08.15
[KSSCI 2021] 인과추론의 데이터 과학 - Session 7 (0)	2023.08.08
[KSSCI 2021] 인과추론의 데이터 과학 - Session 3, 4 (0)	2023.08.01
[KSSCI 2021] 인과추론의 데이터 과학 - Session 1 (0)	2023.07.18
[KSSCI 2021] 인과추론의 데이터 과학 - Session 0 (0)	2023.07.18

NightFury

[KSSCI 2021] 인과추론의 데이터 과학 - Session 2

Session 2-1

Causal Hierarchy of Research Design

Session 2-2

Random Assignment

Example of Randomized Experiments

Session 2-3

Randomized Experiment VS Quasi-Experiment

Example (Exogenous Shock)

Example (Self-Selection)

Exogenous Shock VS Self-selection

Example (Discontinuity)

Session 2-4

Difference in Difference (DID)

Identification Assumption

Matching techniques

Propensity score matching

Coarsened exact matching

Regression Discontinuity (RD)

Reference

'Mathematics > Causal inference' 카테고리의 다른 글

댓글

티스토리툴바

[KSSCI 2021] 인과추론의 데이터 과학 - Session 2

Session 2-1

Causal Hierarchy of Research Design

Session 2-2

Random Assignment

Example of Randomized Experiments

Session 2-3

Randomized Experiment VS Quasi-Experiment

Example (Exogenous Shock)

Example (Self-Selection)

Exogenous Shock VS Self-selection

Example (Discontinuity)

Session 2-4

Difference in Difference (DID)

Identification Assumption

Matching techniques

Propensity score matching

Coarsened exact matching

Regression Discontinuity (RD)

Reference

'Mathematics > Causal inference' 카테고리의 다른 글

관련글

댓글

티스토리툴바