본문 바로가기
Causal inference

[KSSCI 2021] 인과추론의 데이터 과학 - Session 2

by Night Fury 2023. 7. 25.
인과추론의 데이터과학. (2021, Jul 7). [Session 2-1] 인과추론을 위한 연구 디자인[Video]. YouTube.
인과추론의 데이터과학. (2021, Jul 7). [Session 2-2] 인과추론의 정석: 무작위 통제실험 [Video]. YouTube.
인과추론의 데이터과학. (2021, Jul 7). [Session 2-3] 실험 아닌, 실험 같은 준실험  [Video]. YouTube.
인과추론의 데이터과학. (2021, Jul 7). [Session 2-4] 준실험 분석도구: 이중차분법 & 회귀불연속 [Video]. YouTube. 

 

Session 2-1

Causal Hierarchy of Research Design

출처: 인과추론의 데이터과학

  • Meta-Analysis:
    • 인과추론의 영역을 종합적으로 분석
    • 인과추론의 수준이 가장 높음
  • Randomized Experiment (Randomized Controlled Trial; RCT)
    • 현실 상황에서 하기 어려운 경우가 많음
  • Quasi-Experiment
    • 준실험 방법
    • 특정 가정하에서, Randomized Experiment에 가까운 인과추론을 할 수 있음
  • Instrumental Variable
    • 내생성을 인위적으로 제거하기 위한 도구 변수를 활용
    • 실제 상황에서 도구 변수를 찾는 것은 어려움
  • Designed Regression
    • 어떤 통제변수를 넣을 것인지 설계
      • 선택 편향을 모두 없애는 것은 쉽지 않음
    • Causal Diagram 활용
  • Regression
    • 단순 회귀 분석
  • Descriptive statistics
    • 단순 기술통계값 (평균, 분산 등)

 

Session 2-2

Random Assignment

  • 큰 수의 법칙(Law of large numbers): 샘플 수가 커지면, 평균이 이론적인 확률에 가까워짐
  • treatment, control 그룹으로 분리할 때, 실험 참가자의 특성이 균일하게 배정
    • 샘플 수가 크다는 조건이 필요 (research context마다 다름)
    • 비교가능한지 체크하는 것이 중요!

출처: 인과추론의 데이터과학

 

Example of Randomized Experiments

출처: 인과추론의 데이터과학

  • 실험 내용: 교실 내에서 노트북이나 태블릿을 사용하는 것이 기말고사 성적과 어떤 인과관계가 있는지 확인
  • treatment: 교실 내에서 컴퓨터 사용 여부
  • 실험 조건: 나머지 요인 (성별, 성적 등)은 평균적으로 큰 차이가 없어야 함 (= ceteris paribus)
    • ceteris paribus: 다른 모든 조건이 동일하다면

 

출처: 인과추론의 데이터과학

  • 다른 조건은 treatment별 비슷하게 분포된 것을 알 수 있다.
  • main treatment의 경우 차이가 발생하는 것을 알 수 있다. (ex. 컴퓨터 사용 여부)

 

출처: 인과추론의 데이터과학

  • 실험 결과: 교실 내에서 노트북이나 태블릿을 사용하는 것이 기말고사 성적을 유의하게 낮추는 것으로 나타남
  • Demographic controls를 써도 인과효과가 미미했음
    • demographic controls: 특정 인구 집단의 특성이나 구성을 설명하거나 다른 변수들의 영향을 분리하기 위해 사용되는 변수들을 의미 (ex. 연령, 성별, 소득 수준)
    • random assignment가 얼마나 잘 되었는지 간접적으로 판단 가능
  • Random Assignment
    • 복잡한 통계모형이 불필요한 장점이 있음
    • 좋지 않은 사례: 이가탄
      • 정상적인 사람이 control 그룹에 더 많았음
      • 애초에 비교 분석이 불가능한 대상들로 실험을 했음
    • 흔히 기업에서 A/B test로 많이 쓰임

 

Session 2-3

Quasi-Experiment: 실험과 유사한 상황을 찾아서 마치 실험과 같은 비슷한 분석을 할 수 있음

 

Randomized Experiment VS Quasi-Experiment

출처: 인과추론의 데이터과학

  • treatment, control 그룹을 배정하는 방식의 차이
    • Randomized Experiment: random assignment
    • Quasi-Experiment:
      • Self-selection: 연구 대상들이 스스로 treatment를 받을지 말 것인지 결정
        • DID (Difference In Difference) 활용 + Matching 방법 결합
      • Exogenous Shock: 외부 요인에 의해 control, treatment 그룹으로 나뉘는 경우
        • 일반적으로 자연 실험으로 부름
        • DID (Difference In Difference) 활용 + Matching 방법 결합
      • Discontinuity: 임의의 경계값을 기준으로 control, treatment 그룹으로 나뉘는 경우
        • RD(Regression Discontinuity) 활용
  • 한계점
    • treatment, control 그룹을 명확하게 나누기 어려움 (ex. COVID19)
    • 전후의 데이터를 관찰할 수 없다면 Quasi Experiment를 활용하기 어려움
    • random 하게 배정하지 않았기 때문에 control 그룹이 treatment가 없을 때의 treatment 그룹과 얼마나 유사한지 증명해야 함
  • 해결 방법 
    • instrumental variable: 도구 변수를 활용한 분석
      • 원인 변수를 예측할 수 있고 오차항과 연관성이 없는 변수를 찾는 것
    • Selection on Observables: 관찰할 수 있는 변수들로 선택 편향을 제거하는 방법
      • Matching: 가지고 있는 변수를 양 집단 간에 균일하게 만드는 것으로 변수의 효과를 통제하는 방법
        • 값 자체를 균등하게 만드는 것으로 통제
        • 샘플 숫자가 많이 줄어들 수 있음 → 샘플 숫자가 적다면 사용하기 어려울 수 있음
      • Regression: 통제변수와 결과변수 간에 특정한 functional form이 있다고 가정 (ex. 선형 관계)
        • 통계적인 추정에 있어서 효율적임
        • 샘플 숫자에 변화가 없음

 

Example (Exogenous Shock)

출처: 인과추론의 데이터과학

  • 실험: 셰일붐에 의해 정의된 treatment, control 그룹이 local finance에 대한 접근성을 제외하고 다른 점이 얼마나 유사할까?
  • treatment 그룹: 미국에서 셰일가스 유전이 발견되고 개발된 지역
  • control 그룹: 미국에서 셰일가스 유전이 발견되지 않은 지역
  • 어느 정도 random 하게 배정한 것과 유사한 특성을 가지는 것으로 볼 수 있음 → Natural experiment

 

Example (Self-Selection)

출처: 인과추론의 데이터과학

  • 실험: 기업 소셜미디어에 소비자들이 참여한 것이 회사 웹사이트에 방문한 것과 어떠한 영향이 있을까?
  • treatment 그룹: treatment(ex. reply, like)를 한 소비자
  • control 그룹: treatment를 하지 않은 소비자
  • 연구 대상이 직접 treatment를 선택
  • 어떤 의도를 가지고 소셜미디어에 참여를 한 것인지 알기 어려움

 

출처: 인과추론의 데이터과학

  • 실험: 소셜미디어에서 입소문의 영향 측정
  • treatment 그룹: 내 트위터를 팔로우 한 사람 중에서 리트윗 한 기업을 팔로우한 팔로워
  • control 그룹: 내 트위터를 팔로우 한 사람 중에서 리트윗한 기업을 팔로우하지 않은 팔로워
  • 위 웹사이트 방문 사례보다 상대적으로 안전함
    • treatment, control 그룹 모두 내 팔로워기 때문에, 어느 정도 비슷할 것으로 판단

 

Exogenous Shock VS Self-selection

  • ceteris paribus를 증명하는 강도의 차이
    • self-selection이 더 엄밀한 증명을 요구함
  • self-selection 증명 방법
    • sensitivity test (민감도 분석): 특정 변수들이 모델 결과에 미치는 영향을 측정
      • 모델에 사용된 입력 변수들이나 가정들에 대해 변화를 가해보는 과정
      • 모델이 입력 변수들의 변화에 얼마나 민감하게 반응하는지 평가
    • robustness check (탄력성 검증): 다양한 조건에서 결과가 일관성을 유지하는지 확인
      • 모델이나 분석 결과가 다른 조건이나 가정들에 대해 얼마나 견고하게 유지되는지 확인
      • 모델이 특정 가정들에 너무 의존하지 않고, 다양한 조건에서도 일관성을 유지하는지 평가
      • 모델의 결과가 신뢰성 있고 안정적인지 확인하는데 도움이 됨

 

Example (Discontinuity)

출처: 인과추론의 데이터과학

  • 실험: 음주와 건강 문제
    • 미국에서는 음주 가능 나이가 21세
  • treatment 그룹: 21세 이상
  • control 그룹: 21세 미만

 

Session 2-4

Difference in Difference (DID)

출처: 인과추론의 데이터과학

  • 이중 차분
    • 첫 번째 차분: Treatment 그룹의 전후의 변화
    • 두 번째 차분: (Treatment 그룹의 전후의 변화) - (Control 그룹의 전후의 변화)
  • Potential Outcomes Framework에서 중요한 도구
    • Counterfactual은 관찰할 수가 없음
    • Counterfactual과 가까운 control 그룹을 찾아서 시간에 따른 변화량으로 counterfactual을 추정하는 것
  • 핵심 질문:
    • control 그룹이 counterfactual과 얼마나 유사한가?
    • 전후 비교를 왜 하는가?
      • After treatment만 안다면 control 그룹이 counterfactual과 얼마나 유사한지 알기가 어려움

 

Identification Assumption

  • parallel trends assumption
    • 실험군과 대조군의 이전 트렌드가 평행해야 함
    • 실험군과 대조군은 개입 전 결과의 ‘트렌드’가 같아야 함 (=트렌드가 비교 가능해야 함)
    • 트렌드의 위험성
      • 광고 유무와 관계없이 발생한 트렌드를 마치 광고 효과로 착각할 수 있음
  • 개입이 있는 동안 매출에 영향을 줄 만한 ‘다른 변화’가 발생하면 안 됨
    • 개입과 같은 타이밍에 결과에 영향을 줄 만한 다른 변화가 실험군과 대조군에 별개로 발생하지 않아야 함

 

Matching techniques

  • treatment, control 그룹을 평균적으로 유사하게 조정할 수 있음
    • ex. 남자는 남자와, 여자는 여자와, 키 큰 사람은 키 큰 사람과 매칭
  • 2가지 접근법
    • Propensity score matching (PSM)
    • Coarsened exact matching (CEM)

 

Propensity score matching

출처: 인과추론의 데이터과학

  • propensity score를 계산하고 점수가 유사한 샘플들끼리 매칭을 하는 아이디어
  • propensity score: treatment 그룹에 속할 확률
  • probit model:
    • probit: probability + unit의 혼성어
    • 종속 변수가 이항적인 값을 가지는 경우에 사용되는 확률 모델링 방법
      • 누군가 어떤 사건이 발생할 확률을 예측하거나 두 개의 범주 중 하나에 속하는 확률을 추정하는 데 사용됨
    • 이항 로지스틱 회귀와 유사한 모델링 접근법
    • 종속 변수와 독립 변수들 사이의 관계를 파악하고 예측을 수행하는 데 사용됨
  • 가장 많이 활용된 매칭 방법
  • 변수가 굉장히 많다면, propensity score만으로 매칭을 하기 때문에 차이가 많이 생길 수 있음

 

Coarsened exact matching

출처: 인과추론의 데이터과학

  • Exact matching
    • PSM보다 직관적인 방법
    • 모든 변수가 동일하도록 매칭하는 방법
    • 변수가 많아지면 값이 정확히 똑같은 샘플을 찾기가 어려움
    • 거의 활용하기 어려움
  • Coarsened exact matching
    • 입력 변수들을 미리 정해진 구간(bin)으로 나눔 → 변수들을 더 간단하고 적은 수의 그룹으로 만듦
    • 그 후, exact matching을 함

 

Regression Discontinuity (RD)

출처: 인과추론의 데이터과학

  • discontinuous jump를 활용
  • Running variable에 대한 functional form에 대해서 민감한 방법
  • RD는 running variable에 대한 모델링이 핵심
    • discontinuous jump가 없을 때의 상황을 모델링해서 counterfactual을 계산
    • counterfactual과 실제 값과의 차이를 바탕으로 treatment effect를 구하는 것
  • RD 예시

출처: 인과추론의 데이터과학

 

Reference

반응형

댓글