본문 바로가기
Causal inference

[KSSCI 2021] 인과추론의 데이터 과학 - Session 7

by Night Fury 2023. 8. 8.
인과추론의 데이터과학. (2021, Sep 13). [Session 7-1] 인과 그래프 (Causal Diagram) [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 13). [Session 7-2] 인과 그래프에서의 변수 통제방법 [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 20). [Session 7-3] 인과 그래프에서의 인과추론 전략 [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 20). [Session 7-4] 인과 그래프의 응용 [Video]. YouTube.

 

Session 7-1

Structural Causal Model

= Graphical Causal Model

  • 인과관계의 구조를 명시적으로 나타냄
  • 구조적 토폴로지를 고려하여 인과관계 이외의 요인들(ex. Backdoor path)을 차단함으로써 인과관계를 추려내고자 하는 접근
    • 토폴로지(topology): 노드를 물리적으로 연결한 방식

Backdoor path?

  • Backdoor path: 특정 요인과 결과 간의 인과 관계를 파악하는 과정에서 통제변수의 영향을 제거하거나 분리하여 정확하게 분석하기 위한 경로
    • Direct, Indirect causal effect를 제외한 나머지 path를 가리킴
  • Ex. 약의 복용과 특정 질병 간의 인과 관계를 파악하려고 하는 연구 (연령이 약의 효과와 질병 발생 사이에 영향을 미치는 것을 알고 있다고 가정)
    • Backdoor path 사용 X:
      • 연령을 통제변수로 사용
      • 약의 효과와 질병 발생 간의 관계 분석
      • 연령이 중간 요인으로 작용하면, 인과 관계를 왜곡시킬 수 있음
    • Backdoor path 사용 O:
      • 연령과 약의 복용 간의 관계를 파악하는 경로(Backdoor edge)를 사용
      • 연령의 영향을 제거하여 약의 효과와 질병 발생 간의 인과 관계 분석 결과의 정확성을 높일 수 있음

 

Backdoor Model

Causal Diagram (=Causal Graph)

  • Directed Acyclic Graph (DAG)
    • Node와 Edge로 구성된 구조
    • Acyclic: 비순환

출처: 인과추론의 데이터과학

  • DAG의 Relation type
    • (Direct) Causal Effect: 직접적인 인과 관계
    • Mediator (Chain) = Indirect Causal Effeect : 간접적인 인과 관계
    • Confounder (Fork): 원인 변수와 결과 변수에 동시에 영향을 주는 변수
    • Collider (Immorality): 원인 변수와 결과 변수에 동시에 영향을 받는 변수

출처: 인과추론의 데이터과학

Association in Causal Diagram

  • 종류
    • d-connected: X(원인)와 Y(결과) 사이에 적어도 하나의 information flow가 존재하는 경우
    • d-separated: X(원인)와 Y(결과) 사이에 information flow가 존재하지 않는 경우
  • Relation type별 설명
    • Mediator
      • 기본:  d-connected
      • Mediator 통제: X, Y간의 인과 효과를 추정 가능
    • Confounder
      • 기본:  d-connected
      • Confounder 통제: X, Y간의 인과 효과를 추정 가능
    • Collider
      • 기본:  d-separated
      • Collider 통제: X, Y간의 인과 효과를 추정 불가능
        • 통제할 경우 Collider가 오히려 Confounder가 될 수 있음

기본 예시 (출처: 인과추론의 데이터과학)

 

통제 예시 (출처: 인과추론의 데이터과학)

 

Collider 예시

  • 아래 그림처럼 성공한 경우만 뽑아보면 (통제) 없었던 음의 상관관계가 생김

Collider 예시 (출처: 인과추론의 데이터과학)

 

Session 7-2

특정 변수를 Conditioning, Control 하는 방법

  • 변수를 conditioning한다???
    • 특정 변수의 값을 고정하거나 제한하여, 다른 변수 간의 인과 관계를 분석하고 해석하는 과정
    • Conditioning: 조건을 설정하거나 제어하기 위한 통계적 기법을 의미
  • 3가지 방법
    • Control variable in regression → conditioning
      • focal factor(중요한 변수)와 결과 사이의 관계를 고정 (using specific functional form)
    • Stratification (like Matching) → conditioning
      • focal factor값을 고정시켜서 결과에 대한 영향을 제거
      • 유연하다는 장점이 있음
      • 고정된 값 이외의 정보를 버리기 때문에, information loss (정보 손실)이 발생함
    • Inverse Probability Weighting (IPW) → removing arrows
      • 역확률 가중법
      • g-method(generalized methods)의 한 부분
      • 각 관측치(데이터 포인트)에 대해 역확률을 계산하여 가중치를 할당
        • 역확률: 관측치가 특정 조건을 만족하는 확률의 역수로 계산
        • 가중치: 관측치의 중요도를 반영
      • 계산된 가중치를 사용하여 효과를 추정하거나 모델을 fitting 하여 결과를 추론

Inverse Probability Weighting (IPW)

  • Unweighted effect

Unweighted effect 예시 (출처: 인과추론의 데이터과학)

  • Regression, Matching
    • 아래 그림에서 C=1, C=0일 때 각각을 비교하는 방식 (두 집단은 서로 비슷하다는 가정)

Regression, Matching 예시 (출처: 인과추론의 데이터과학)

  • Pseudo-population (IPW)
    • treatment 집단과 control 집단의 효과를 counterfactual의 잠재적 결과로 가정하는 방법
      • ex. treatment에서 받은 집단에서의 효과를 control 집단에서 받은 잠재적 결과로 가정

Pseudo-population 예시 (출처: 인과추론의 데이터과학)

  • IPW 예시
    • weight: propensity score에 역수를 취한 값
    • potential outcome: 효과 X (weight - 1)
    • C값과 관계없이 동일한 random assignment 효과를 가짐
      • \(P(X=1 | C=1) = 50\%\;(60)\)
      • \(P(X=0 | C=1) = 50\%\;(60)\)
      • \(P(X=1 | C=0) = 50\%\;(40)\)
      • \(P(X=0 | C=0) = 50\%\;(40)\)

IPW 계산 예시 (출처: 인과추론의 데이터과학)

  • Sample VS Pseudo population

Sample VS Pseudo population (출처: 인과추론의 데이터과학)

Simulation of Conditioning

  • confounder를 통제하고 collider를 통제하면 안 되는 이유를 보여준 실험
  • 실험에서 \(\beta_1=2\) 가 true값임
  • 첫 번째 그림은 confounder를 통제하지 않은 경우 → over estimate
  • 두 번째 그림은 confounder를 통제한 경우
  • 세 번째 그림은 confounder를 통제하고 collider도 통제한 경우

출처: 인과추론의 데이터과학

 

Session 7-3

Causation in Causal Diagram

  • do(X) operator: treatment에 영향을 줄 수 있는 모든 효과를 무시하는 역할
    • 이론적인 개념으로 실제 계산할 수 없음
    • do(X) operator를 추정하기 위해서는 Conditional probability로 변환해야 함 → Identification
  • Causal effect of X on Y = \(P(Y|do(X))\)
  • Interventional distribution??
    • 특정한 개입(intervention) or 처리(treatment)가 발생한 상황에서의 확률 분포를 의미
    • 개입: 연구자가 시스템의 어떤 요인을 의도적으로 변화시키는 것
  • do-calculus: Interventional distribution을 Conditional distribution으로 바꾸는 과정에서 필요한 rule의 집합
    • Judea Pearl 교수님이 개발한 이론
    • 개입이 있는 경우에서 조건부 확률 분포를 계산하고 인과 관계를 추론하기 위해 사용
  • Backdoor path를 없애는 대표적인 방법: Backdoor or Front-door adjustment

출처: 인과추론의 데이터과학

Random assignment

  • Treatment T에 random assignment (ex. 동전 던지기)를 시행하면 do operator와 동일한 효과를 줌
    • random assignment: 실제 데이터 상에서 적용할 수 있도록 역할을 함
  • conditional distribution = interventional distribution

Random assignment 예시 (출처: 인과추론의 데이터과학)

Backdoor Criterion and Adjustment

  • Backdoor Criterion: X와 Y 간의 인과 관계를 제외한 모든 backdoor path를 막을 수 있는 변수들의 집합
    • 특정 변수 간의 인과 관계를 분석할 때, 통제변수의 영향을 제거하거나 분리하기 위해 사용되는 기준
    • X, Y의 인과 관계를 분석할 때, 관계를 왜곡시키는 통제변수의 영향을 제거하려면 어떤 변수들을 통제해야 하는지 나타내는 개념
    • Backdoor path: 외부 요인으로 인해 인과 관계를 왜곡시킬 수 있는 경로
    • Backdoor path를 막는다?
      • 특정 변수를 통제 변수로 고려하거나 제어하여 인과 관계를 분석하는 것을 의미
    • ex. confounder들의 집합 → backdoor criterion을 만족하는 집합 (collider는 불가능)
      • 아래 그림에서 \(W_2\)와 \(C\)는 Confounder로 Backdoor Criterion를 만족함

출처: 인과추론의 데이터과학

  • Backdoor Adjustment: Backdoor Criterion을 만족하는 모든 변수들을 conditioning 하고 control 하는 것
    • confounder는 통제하고 collider는 통제하지 말라는 것을 formal 하게 얘기한 것
    • 아래 그림에서 treatment \(t\)와 \(c, w_2\)를 통제하는 것으로 인과 관계를 추론할 수 있음

출처: 인과추론의 데이터과학

Front-door Adjustment

  • confounder가 발견되지 않았을 때 사용하는 방법
  • Step
    1. T가 M에 미치는 영향을 파악
    2. T를 통제하고, M이 Y에 미치는 영향을 파악
      1. T를 통제하면 W가 T에 영향을 미치지 못함 → Backdoor path를 차단한 상태로 추정
    3. 1, 2를 chain rule에 의해 효과를 곱하는 것으로 T가 Y에 미치는 인과 효과를 추정

Front-door Adjustment (출처: 인과추론의 데이터과학)

Graphical/Structural Causal Model 주의점

  • causal structure에 의존적임
    • 이러한 그래프를 그리는 자체가 어려운 한계가 있음
    • causal diagram을 증명할 수 있는 방법이 없음
    • 현실에 부합하는 causal diagram을 그리기 위해서는 domain 전문가가 필요
  • Ex. 흡연과 폐암의 인과 관계

출처: 인과추론의 데이터과학

  • Ex. M-bias
    • A 사례: 안전벨트 변수는 collider로 통제 불가
    • B 사례:
      • 안전벨트 변수를 통제하면 M-bias가 생김
      • 안전벨트 변수를 통제하지 않으면 Backdoor path가 생김 ⇒ 2가지 bias 중에 어떤 것이 더 크리티컬 한 지 연구자가 판단하고 안전벨트를 conditioning 할 것인지 결정 필요

출처: 인과추론의 데이터과학

 

Section 7-4

Structure-Based Research Design

  • 실험: 갱년기에 여성호르몬 치료를 하는 것이 자궁암을 유발한다.
    • 1970년대 여성호르몬 치료와 자궁암 사이에 양의 상관관계가 있었음
  • 예일대 연구팀: 여성호르몬 처방 → 자궁 출혈 → 정밀 검사 → 자궁암 발견
    • 자궁 출혈이라는 요인을 통제하는 것으로 backdoor path를 막을 수 있다고 주장

출처: 인과추론의 데이터과학

  • 하버드대 보스턴 연구팀: 호르몬 치료제의 인과적 효과를 밝힐 수 없다고 주장
    • 적절한 연구 디자인이 아니라고 반박
    • IPW 방법을 활용하여 Estrogens(여성호르몬)와 Uterine Bleeding(자궁 출혈)의 관계를 끊어내는 것으로 해결 가능

출처: 인과추론의 데이터과학
IPW 예시 (출처: 인과추론의 데이터과학)

통제 변수 Design

  • 인과 추론의 최후의 수단이 되어야 함
    • 가지고 있는 변수만으로 눈에 보이지 않는 요인들을 통제하는 것은 어려움
  • 2가지 현실적인 접근법
    • Omitted variable이 분석 결과에 얼마나 민감한지 확인 → Sensitivity test or boundary analysis
      • Boundary analysis: 특정 변수의 값을 변화시켜서 변수가 인과 관계에 어떤 영향을 미치는지를 확인할 때 사용
    • Causal diagram 기반, backdoor path를 적절히 차단할 수 있는 통제 변수를 고려
  • Causal diagram이 storytelling에 효과적인 예시

출처: 인과추론의 데이터과학

Causal Decision Making

  • 심슨의 역설 사례
    • 개별적으로 보면 Treatment B가 사망률이 낮지만, 전체적으로는 Treatment A가 낮음
    • 어떤 treatment를 결정할 수 있을까? → Causal diagram에 따라 달라진다.
  • Causal Diagram1

출처: 인과추론의 데이터과학

  • Causal Diagram2

출처: 인과추론의 데이터과학

 

Reference

반응형

댓글