[KSSCI 2021] 인과추론의 데이터 과학

인과추론의 데이터과학. (2021, Sep 13). [Session 7-1] 인과 그래프 (Causal Diagram) [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 13). [Session 7-2] 인과 그래프에서의 변수 통제방법 [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 20). [Session 7-3] 인과 그래프에서의 인과추론 전략 [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 20). [Session 7-4] 인과 그래프의 응용 [Video]. YouTube.

Session 7-1

Structural Causal Model

= Graphical Causal Model

인과관계의 구조를 명시적으로 나타냄
구조적 토폴로지를 고려하여 인과관계 이외의 요인들(ex. Backdoor path)을 차단함으로써 인과관계를 추려내고자 하는 접근
- 토폴로지(topology): 노드를 물리적으로 연결한 방식

Backdoor path?

Backdoor path: 특정 요인과 결과 간의 인과 관계를 파악하는 과정에서 통제변수의 영향을 제거하거나 분리하여 정확하게 분석하기 위한 경로
- Direct, Indirect causal effect를 제외한 나머지 path를 가리킴
Ex. 약의 복용과 특정 질병 간의 인과 관계를 파악하려고 하는 연구 (연령이 약의 효과와 질병 발생 사이에 영향을 미치는 것을 알고 있다고 가정)
- Backdoor path 사용 X:
  - 연령을 통제변수로 사용
  - 약의 효과와 질병 발생 간의 관계 분석
  - 연령이 중간 요인으로 작용하면, 인과 관계를 왜곡시킬 수 있음
- Backdoor path 사용 O:
  - 연령과 약의 복용 간의 관계를 파악하는 경로(Backdoor edge)를 사용
  - 연령의 영향을 제거하여 약의 효과와 질병 발생 간의 인과 관계 분석 결과의 정확성을 높일 수 있음

Causal Diagram (=Causal Graph)

Directed Acyclic Graph (DAG)
- Node와 Edge로 구성된 구조
- Acyclic: 비순환

DAG의 Relation type
- (Direct) Causal Effect: 직접적인 인과 관계
- Mediator (Chain) = Indirect Causal Effeect : 간접적인 인과 관계
- Confounder (Fork): 원인 변수와 결과 변수에 동시에 영향을 주는 변수
- Collider (Immorality): 원인 변수와 결과 변수에 동시에 영향을 받는 변수

Association in Causal Diagram

종류
- d-connected: X(원인)와 Y(결과) 사이에 적어도 하나의 information flow가 존재하는 경우
- d-separated: X(원인)와 Y(결과) 사이에 information flow가 존재하지 않는 경우
Relation type별 설명
- Mediator
  - 기본: d-connected
  - Mediator 통제: X, Y간의 인과 효과를 추정 가능
- Confounder
  - 기본: d-connected
  - Confounder 통제: X, Y간의 인과 효과를 추정 가능
- Collider
  - 기본: d-separated
  - Collider 통제: X, Y간의 인과 효과를 추정 불가능
    - 통제할 경우 Collider가 오히려 Confounder가 될 수 있음

Collider 예시

아래 그림처럼 성공한 경우만 뽑아보면 (통제) 없었던 음의 상관관계가 생김

Session 7-2

특정 변수를 Conditioning, Control 하는 방법

변수를 conditioning한다???
- 특정 변수의 값을 고정하거나 제한하여, 다른 변수 간의 인과 관계를 분석하고 해석하는 과정
- Conditioning: 조건을 설정하거나 제어하기 위한 통계적 기법을 의미
3가지 방법
- Control variable in regression → conditioning
  - focal factor(중요한 변수)와 결과 사이의 관계를 고정 (using specific functional form)
- Stratification (like Matching) → conditioning
  - focal factor값을 고정시켜서 결과에 대한 영향을 제거
  - 유연하다는 장점이 있음
  - 고정된 값 이외의 정보를 버리기 때문에, information loss (정보 손실)이 발생함
- Inverse Probability Weighting (IPW) → removing arrows
  - 역확률 가중법
  - g-method(generalized methods)의 한 부분
  - 각 관측치(데이터 포인트)에 대해 역확률을 계산하여 가중치를 할당
    - 역확률: 관측치가 특정 조건을 만족하는 확률의 역수로 계산
    - 가중치: 관측치의 중요도를 반영
  - 계산된 가중치를 사용하여 효과를 추정하거나 모델을 fitting 하여 결과를 추론

Inverse Probability Weighting (IPW)

Unweighted effect

Regression, Matching
- 아래 그림에서 C=1, C=0일 때 각각을 비교하는 방식 (두 집단은 서로 비슷하다는 가정)

Regression, Matching 예시 (출처: 인과추론의 데이터과학)

Pseudo-population (IPW)
- treatment 집단과 control 집단의 효과를 counterfactual의 잠재적 결과로 가정하는 방법
  - ex. treatment에서 받은 집단에서의 효과를 control 집단에서 받은 잠재적 결과로 가정

IPW 예시
- weight: propensity score에 역수를 취한 값
- potential outcome: 효과 X (weight - 1)
- C값과 관계없이 동일한 random assignment 효과를 가짐
  - \(P(X=1 | C=1) = 50\%\;(60)\)
  - \(P(X=0 | C=1) = 50\%\;(60)\)
  - \(P(X=1 | C=0) = 50\%\;(40)\)
  - \(P(X=0 | C=0) = 50\%\;(40)\)

Sample VS Pseudo population

Sample VS Pseudo population (출처: 인과추론의 데이터과학)

Simulation of Conditioning

confounder를 통제하고 collider를 통제하면 안 되는 이유를 보여준 실험
실험에서 \(\beta_1=2\) 가 true값임
첫 번째 그림은 confounder를 통제하지 않은 경우 → over estimate
두 번째 그림은 confounder를 통제한 경우
세 번째 그림은 confounder를 통제하고 collider도 통제한 경우

Session 7-3

Causation in Causal Diagram

do(X) operator: treatment에 영향을 줄 수 있는 모든 효과를 무시하는 역할
- 이론적인 개념으로 실제 계산할 수 없음
- do(X) operator를 추정하기 위해서는 Conditional probability로 변환해야 함 → Identification
Causal effect of X on Y = \(P(Y|do(X))\)
Interventional distribution??
- 특정한 개입(intervention) or 처리(treatment)가 발생한 상황에서의 확률 분포를 의미
- 개입: 연구자가 시스템의 어떤 요인을 의도적으로 변화시키는 것
do-calculus: Interventional distribution을 Conditional distribution으로 바꾸는 과정에서 필요한 rule의 집합
- Judea Pearl 교수님이 개발한 이론
- 개입이 있는 경우에서 조건부 확률 분포를 계산하고 인과 관계를 추론하기 위해 사용
Backdoor path를 없애는 대표적인 방법: Backdoor or Front-door adjustment

Random assignment

Treatment T에 random assignment (ex. 동전 던지기)를 시행하면 do operator와 동일한 효과를 줌
- random assignment: 실제 데이터 상에서 적용할 수 있도록 역할을 함
conditional distribution = interventional distribution

Backdoor Criterion and Adjustment

Backdoor Criterion: X와 Y 간의 인과 관계를 제외한 모든 backdoor path를 막을 수 있는 변수들의 집합
- 특정 변수 간의 인과 관계를 분석할 때, 통제변수의 영향을 제거하거나 분리하기 위해 사용되는 기준
- X, Y의 인과 관계를 분석할 때, 관계를 왜곡시키는 통제변수의 영향을 제거하려면 어떤 변수들을 통제해야 하는지 나타내는 개념
- Backdoor path: 외부 요인으로 인해 인과 관계를 왜곡시킬 수 있는 경로
- Backdoor path를 막는다?
  - 특정 변수를 통제 변수로 고려하거나 제어하여 인과 관계를 분석하는 것을 의미
- ex. confounder들의 집합 → backdoor criterion을 만족하는 집합 (collider는 불가능)
  - 아래 그림에서 \(W_2\)와 \(C\)는 Confounder로 Backdoor Criterion를 만족함

Backdoor Adjustment: Backdoor Criterion을 만족하는 모든 변수들을 conditioning 하고 control 하는 것
- confounder는 통제하고 collider는 통제하지 말라는 것을 formal 하게 얘기한 것
- 아래 그림에서 treatment \(t\)와 \(c, w_2\)를 통제하는 것으로 인과 관계를 추론할 수 있음

Front-door Adjustment

confounder가 발견되지 않았을 때 사용하는 방법
Step
1. T가 M에 미치는 영향을 파악
2. T를 통제하고, M이 Y에 미치는 영향을 파악
  1. T를 통제하면 W가 T에 영향을 미치지 못함 → Backdoor path를 차단한 상태로 추정
3. 1, 2를 chain rule에 의해 효과를 곱하는 것으로 T가 Y에 미치는 인과 효과를 추정

Graphical/Structural Causal Model 주의점

causal structure에 의존적임
- 이러한 그래프를 그리는 자체가 어려운 한계가 있음
- causal diagram을 증명할 수 있는 방법이 없음
- 현실에 부합하는 causal diagram을 그리기 위해서는 domain 전문가가 필요
Ex. 흡연과 폐암의 인과 관계

Ex. M-bias
- A 사례: 안전벨트 변수는 collider로 통제 불가
- B 사례:
  - 안전벨트 변수를 통제하면 M-bias가 생김
  - 안전벨트 변수를 통제하지 않으면 Backdoor path가 생김 ⇒ 2가지 bias 중에 어떤 것이 더 크리티컬 한 지 연구자가 판단하고 안전벨트를 conditioning 할 것인지 결정 필요

Section 7-4

Structure-Based Research Design

실험: 갱년기에 여성호르몬 치료를 하는 것이 자궁암을 유발한다.
- 1970년대 여성호르몬 치료와 자궁암 사이에 양의 상관관계가 있었음
예일대 연구팀: 여성호르몬 처방 → 자궁 출혈 → 정밀 검사 → 자궁암 발견
- 자궁 출혈이라는 요인을 통제하는 것으로 backdoor path를 막을 수 있다고 주장

하버드대 보스턴 연구팀: 호르몬 치료제의 인과적 효과를 밝힐 수 없다고 주장
- 적절한 연구 디자인이 아니라고 반박
- IPW 방법을 활용하여 Estrogens(여성호르몬)와 Uterine Bleeding(자궁 출혈)의 관계를 끊어내는 것으로 해결 가능

통제 변수 Design

인과 추론의 최후의 수단이 되어야 함
- 가지고 있는 변수만으로 눈에 보이지 않는 요인들을 통제하는 것은 어려움
2가지 현실적인 접근법
- Omitted variable이 분석 결과에 얼마나 민감한지 확인 → Sensitivity test or boundary analysis
  - Boundary analysis: 특정 변수의 값을 변화시켜서 변수가 인과 관계에 어떤 영향을 미치는지를 확인할 때 사용
- Causal diagram 기반, backdoor path를 적절히 차단할 수 있는 통제 변수를 고려
Causal diagram이 storytelling에 효과적인 예시

Causal Decision Making

심슨의 역설 사례
- 개별적으로 보면 Treatment B가 사망률이 낮지만, 전체적으로는 Treatment A가 낮음
- 어떤 treatment를 결정할 수 있을까? → Causal diagram에 따라 달라진다.
Causal Diagram1

Causal Diagram2

Reference

저작자표시 비영리 변경금지 (새창열림)

'Mathematics > Causal inference' 카테고리의 다른 글

[KSSCI 2021] 인과추론의 데이터 과학 - Session 7/8 보충 (0)	2023.08.22
[KSSCI 2021] 인과추론의 데이터 과학 - 사전학습자료 (0)	2023.08.15
[KSSCI 2021] 인과추론의 데이터 과학 - Session 3, 4 (0)	2023.08.01
[KSSCI 2021] 인과추론의 데이터 과학 - Session 2 (0)	2023.07.25
[KSSCI 2021] 인과추론의 데이터 과학 - Session 1 (0)	2023.07.18

NightFury

[KSSCI 2021] 인과추론의 데이터 과학 - Session 7

Session 7-1

Structural Causal Model

Backdoor path?

Causal Diagram (=Causal Graph)

Association in Causal Diagram

Collider 예시

Session 7-2

특정 변수를 Conditioning, Control 하는 방법

Inverse Probability Weighting (IPW)

Simulation of Conditioning

Session 7-3

Causation in Causal Diagram

Random assignment

Backdoor Criterion and Adjustment

Front-door Adjustment

Graphical/Structural Causal Model 주의점

Section 7-4

Structure-Based Research Design

통제 변수 Design

Causal Decision Making

Reference

'Mathematics > Causal inference' 카테고리의 다른 글

댓글

티스토리툴바

[KSSCI 2021] 인과추론의 데이터 과학 - Session 7

Session 7-1

Structural Causal Model

Backdoor path?

Causal Diagram (=Causal Graph)

Association in Causal Diagram

Collider 예시

Session 7-2

특정 변수를 Conditioning, Control 하는 방법

Inverse Probability Weighting (IPW)

Simulation of Conditioning

Session 7-3

Causation in Causal Diagram

Random assignment

Backdoor Criterion and Adjustment

Front-door Adjustment

Graphical/Structural Causal Model 주의점

Section 7-4

Structure-Based Research Design

통제 변수 Design

Causal Decision Making

Reference

'Mathematics > Causal inference' 카테고리의 다른 글

관련글

댓글

티스토리툴바