본문 바로가기
Causal inference

[KSSCI 2021] 인과추론의 데이터 과학 - Session 1

by Night Fury 2023. 7. 18.
인과추론의 데이터과학. (2021, Jul 7). [Session 1-1] 인과추론의 다양한 접근법 [Video]. YouTube.
인과추론의 데이터과학. (2021, Jul 7). [Session 1-2] 잠재적결과 프레임워크 [Video]. YouTube.
인과추론의 데이터과학. (2021, Jul 7). [Session 1-3] 인과적 사고방식 [Video]. YouTube.

 

Session 1-1

Philosophy

  • David Hume
    • Empiricism (경험주의) 철학의 대표적인 인물
    • 인과관계는 원인이 항상 결과가 있었다면, 반복적인 경험에 기반한 관념적인 연결고리라고 주장함
    • ex. 먹구름 + 무릎이 시리다 → 비가 온다는 생각이 머리에 떠오름
  • Immanuel Kant
    • 인간의 이성에 기반한 합리주의와 경험주의를 결합한 근대철학의 핵심적인 인물

실증주의(Positivism) vs 경험주의 (Empiricism)

  • 실증주의
    • 자연의 원리나 법칙을 찾을 때 우리가 물리적으로 경험한 사실만이 과학의 토대가 된다는 관념
      • 과학적인 방법을 통해 테스트되고 검증될 수 있음
    • David Hume의 경험론에 기초를 둠
  • 경험주의
    • 경험적 시험으로 검증할 수 있는 관념만이 정당한 지식의 지위를 갖는다는 것
    • 감각 지각이야말로 지식을 얻어내는 유일한 방법이며, 경험적 근거가 없는 주장은 다 가짜로 판단

인과관계 접근법

출처: 인과추론의 데이터 과학

Logic/Theory Oriented:

  • 이론에 기반한 가설적인 인과관계
  • 수학적 법칙이나 논리적 추론에 따라 인과관계가 형성될 수 있는 logical imperative를 구축하는 것

Data/Evidence Oriented

  • Statistics Approach: seeking unbiasedness
    • ⬆️ Pros
      • 내생성(Endogeneity)이 수학적으로 계산 가능하고 분석적으로 추적 가능
        • 내생성: 특정 변수가 동시에 원인과 결과가 될 수 있다는 가능성을 의미
        • 변수 간의 원인과 결과의 관계를 해석하는 데에 영향을 미치는 요소를 가리킴
      • 통계적 모델로 내생성을 얼마나 줄일 수 있는지 평가 or 통계 지표를 제공 가능
    • ⬇️ Cons
      • 어떤 데이터를 분석하고 어떤 요인을 얼마나 통제해야 하는지 가이드를 제공하기 어려움
  • Design-Based Approach: removing selection bias
    • ⬆️ Pros
      • 적절한 연구 디자인을 설정할 수 있으면, 깊이 있는 인과 구조에 대한 이해가 없어도 인과적인 효과를 추정할 수 있음 (아스피린을 잘 몰라도, 아스피린의 인과적인 효과를 정량화 가능)
    • ⬇️ Con
      • 어떤 인과구조와 underlying 메커니즘에 의해 인과효과가 나오는지 직접적으로 말해주지 않음
        • 간접적인 방식으로 underlying 메카니즘을 밝히기 위한 노력을 함
  • Structure-Based Approach: estimating causal structure
    • ⬆️ Pros
      • 인과구조에 대한 관계를 직접적으로 보이고 추정하는 것으로 어떤 설명 변수가 종속 변수에 영향을 주는지 추론할 수 있음
    • ⬇️ Con
      • 인과구조를 잘못 산정하면 완전히 다른 결과를 얻을 수 있음
        • 인과구조에 대한 검증이 가장 중요

 

Session 1-2

Causal Mindset / Literacy

인과관계에 대한 mindset과 그에 부합하는 research design을 깨닫는 것이 중요함

Design-Based Approach to Causation

  • Rubin: 연구 대상에 행해질 수 있는 구체적인 treatment를 정의해야 인과추론을 할 수 있음
  • Keele: research design이 중요함
    • 데이터를 모으기 전에 연구자가 얼마나 적절한 연구 디자인을 고안했는지가 인과추론을 위해 중요함

Potential Outcomes Framework

  • 특정 treatment의 인과적인 효과에 대해 잠재적 결과의 차이로 정의하는 관점
  • 잠재적 결과를 모두 관찰할 수 없는 근본적인 문제가 있음
  • Example
    • 그때 알았더라면 좋았을 텐데..
    • 독서에 따른 성적 인과 효과 비교
  • Average Treatment Effect (ATE)
    • ATE = E[Y1|D=1] - E[Y0|D=0]
      • treatment를 투약으로 가정
      • D: 처리 여부 (투약 O: 1, 투약 X: 0)
      • Y: 결과 (Y1: 투약했을 때, Y2: 투약하지 않았을 때)
    • 두 그룹의 평균 차이를 한 것
    • 두 그룹이 완전히 동일하지 않기 때문에 약간의 bias가 생김 → selection bias
  • Average Treatment effect on Treated (ATT)
    • 완벽한 인과관계의 효과
    • ATT = ATE - selection bias = E[Y1|D=1] - E[Y0|D=1]
      • E[Y0|D=1]: 투약했는데 투약하지 않았을 때의 결과 → 관측될 수 없는 값 ⇒ Counterfactural
    • ATT는 구할 수 없으므로 selection bias를 최소화하여 ATE가 ATT에 가깝게 하는 것이 실험 설계자의 목적

Selection bias

  • 선택적 편향
  • Observed effect of the treatment = Causal effect + Selection bias
    • Causal effect: Outcome for treated if treated - Outcome for untreated if treated
    • Selection bias: Outcome for treated if not treated - Outcome for untreated if not treated

Causal Mindset

  • 잠재적 결과 framework 관점에서 인과추론은 selection bias를 없애는 것
  • treatment를 제외한 모든 요인에 대해 비교 가능해야 함
    • counterfactural에 대해 적절한 연구 디자인(research design)을 설계하는 것이 목표

 

Session 1-3

인과추론 사례

  • Economic Growth
    • 남한 vs 북한 → 사회 제도의 문제
    • Nogales (US vs Mexico) → 사회 제도의 문제
      • 비교 가능한 지형, 문화, 국민
      • GDP (US: $65,297, Mexico: $9,946)
  • 1995 Chicago Heat Wave
    • 1995/7/14 ~ 20에 폭염으로 인해 큰 사망자 수가 발생
      • 노인, 빈곤층, 1인 가구 거주자가 많았음
      • 이웃이나 국가의 외면으로 혼자 더위를 견디다 사망한 것으로 드러남
    • 1999년 또다시 폭염이 발생했지만, 대비가 잘 되어서 사망자 수가 크게 줄었음
      • 경찰이 집집마다 방문하여 취약 계층의 안전을 확인
      • 냉방센터를 만들고 챙기려는 여러 가지 노력을 함
    • 1995, 1999년의 차이는 사회적 연결망에 있었음
  • 쌍둥이 교육 연구 사례
    • 4분기에 태어난 아이들이 1분기에 태어난 아이들보다 학교를 다닌 기간이 길었음
      • 만 16세는 의무적으로 학교를 다녀야 하는 구조
    • 학교 교육이 장래 수입에 미치는 영향을 확인하는 연구
    • Counterfactual에 가까운 비교가능한 통제
      • 쌍둥이
      • 같은 해에 태어남
    • 연구 디자인: 같은 해에서 다른 분기에 태어난 아이들을 비교
  • 신장 기증 관련 사례
    • 같은 기증자의 서로 다른 두 개의 신장은 유사한 패턴을 보여야 정상
    • 연구 설계: 기증된 신장을 비교해 본 결과 기증이 받아들여지는 기준에 다른 패턴을 보이는 것을 확인함
    • 연구 결과: 신체적인 요인 + 다른 사람의 행동에 영향을 받는 것

 

Reference

반응형

댓글