인과추론의 데이터과학. (2021, Sep 13). [Session 7-1] 인과 그래프 (Causal Diagram) [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 13). [Session 7-2] 인과 그래프에서의 변수 통제방법 [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 20). [Session 7-3] 인과 그래프에서의 인과추론 전략 [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 20). [Session 7-4] 인과 그래프의 응용 [Video]. YouTube.
Session 7-1
Structural Causal Model
= Graphical Causal Model
- 인과관계의 구조를 명시적으로 나타냄
- 구조적 토폴로지를 고려하여 인과관계 이외의 요인들(ex. Backdoor path)을 차단함으로써 인과관계를 추려내고자 하는 접근
- 토폴로지(topology): 노드를 물리적으로 연결한 방식
Backdoor path?
- Backdoor path: 특정 요인과 결과 간의 인과 관계를 파악하는 과정에서 통제변수의 영향을 제거하거나 분리하여 정확하게 분석하기 위한 경로
- Direct, Indirect causal effect를 제외한 나머지 path를 가리킴
- Ex. 약의 복용과 특정 질병 간의 인과 관계를 파악하려고 하는 연구 (연령이 약의 효과와 질병 발생 사이에 영향을 미치는 것을 알고 있다고 가정)
- Backdoor path 사용 X:
- 연령을 통제변수로 사용
- 약의 효과와 질병 발생 간의 관계 분석
- 연령이 중간 요인으로 작용하면, 인과 관계를 왜곡시킬 수 있음
- Backdoor path 사용 O:
- 연령과 약의 복용 간의 관계를 파악하는 경로(Backdoor edge)를 사용
- 연령의 영향을 제거하여 약의 효과와 질병 발생 간의 인과 관계 분석 결과의 정확성을 높일 수 있음
- Backdoor path 사용 X:
Causal Diagram (=Causal Graph)
- Directed Acyclic Graph (DAG)
- Node와 Edge로 구성된 구조
- Acyclic: 비순환
- DAG의 Relation type
- (Direct) Causal Effect: 직접적인 인과 관계
- Mediator (Chain) = Indirect Causal Effeect : 간접적인 인과 관계
- Confounder (Fork): 원인 변수와 결과 변수에 동시에 영향을 주는 변수
- Collider (Immorality): 원인 변수와 결과 변수에 동시에 영향을 받는 변수
Association in Causal Diagram
- 종류
- d-connected: X(원인)와 Y(결과) 사이에 적어도 하나의 information flow가 존재하는 경우
- d-separated: X(원인)와 Y(결과) 사이에 information flow가 존재하지 않는 경우
- Relation type별 설명
- Mediator
- 기본: d-connected
- Mediator 통제: X, Y간의 인과 효과를 추정 가능
- Confounder
- 기본: d-connected
- Confounder 통제: X, Y간의 인과 효과를 추정 가능
- Collider
- 기본: d-separated
- Collider 통제: X, Y간의 인과 효과를 추정 불가능
- 통제할 경우 Collider가 오히려 Confounder가 될 수 있음
- Mediator
Collider 예시
- 아래 그림처럼 성공한 경우만 뽑아보면 (통제) 없었던 음의 상관관계가 생김
Session 7-2
특정 변수를 Conditioning, Control 하는 방법
- 변수를 conditioning한다???
- 특정 변수의 값을 고정하거나 제한하여, 다른 변수 간의 인과 관계를 분석하고 해석하는 과정
- Conditioning: 조건을 설정하거나 제어하기 위한 통계적 기법을 의미
- 3가지 방법
- Control variable in regression → conditioning
- focal factor(중요한 변수)와 결과 사이의 관계를 고정 (using specific functional form)
- Stratification (like Matching) → conditioning
- focal factor값을 고정시켜서 결과에 대한 영향을 제거
- 유연하다는 장점이 있음
- 고정된 값 이외의 정보를 버리기 때문에, information loss (정보 손실)이 발생함
- Inverse Probability Weighting (IPW) → removing arrows
- 역확률 가중법
- g-method(generalized methods)의 한 부분
- 각 관측치(데이터 포인트)에 대해 역확률을 계산하여 가중치를 할당
- 역확률: 관측치가 특정 조건을 만족하는 확률의 역수로 계산
- 가중치: 관측치의 중요도를 반영
- 계산된 가중치를 사용하여 효과를 추정하거나 모델을 fitting 하여 결과를 추론
- Control variable in regression → conditioning
Inverse Probability Weighting (IPW)
- Unweighted effect
- Regression, Matching
- 아래 그림에서 C=1, C=0일 때 각각을 비교하는 방식 (두 집단은 서로 비슷하다는 가정)
- Pseudo-population (IPW)
- treatment 집단과 control 집단의 효과를 counterfactual의 잠재적 결과로 가정하는 방법
- ex. treatment에서 받은 집단에서의 효과를 control 집단에서 받은 잠재적 결과로 가정
- treatment 집단과 control 집단의 효과를 counterfactual의 잠재적 결과로 가정하는 방법
- IPW 예시
- weight: propensity score에 역수를 취한 값
- potential outcome: 효과 X (weight - 1)
- C값과 관계없이 동일한 random assignment 효과를 가짐
- \(P(X=1 | C=1) = 50\%\;(60)\)
- \(P(X=0 | C=1) = 50\%\;(60)\)
- \(P(X=1 | C=0) = 50\%\;(40)\)
- \(P(X=0 | C=0) = 50\%\;(40)\)
- Sample VS Pseudo population
Simulation of Conditioning
- confounder를 통제하고 collider를 통제하면 안 되는 이유를 보여준 실험
- 실험에서 \(\beta_1=2\) 가 true값임
- 첫 번째 그림은 confounder를 통제하지 않은 경우 → over estimate
- 두 번째 그림은 confounder를 통제한 경우
- 세 번째 그림은 confounder를 통제하고 collider도 통제한 경우
Session 7-3
Causation in Causal Diagram
- do(X) operator: treatment에 영향을 줄 수 있는 모든 효과를 무시하는 역할
- 이론적인 개념으로 실제 계산할 수 없음
- do(X) operator를 추정하기 위해서는 Conditional probability로 변환해야 함 → Identification
- Causal effect of X on Y = \(P(Y|do(X))\)
- Interventional distribution??
- 특정한 개입(intervention) or 처리(treatment)가 발생한 상황에서의 확률 분포를 의미
- 개입: 연구자가 시스템의 어떤 요인을 의도적으로 변화시키는 것
- do-calculus: Interventional distribution을 Conditional distribution으로 바꾸는 과정에서 필요한 rule의 집합
- Judea Pearl 교수님이 개발한 이론
- 개입이 있는 경우에서 조건부 확률 분포를 계산하고 인과 관계를 추론하기 위해 사용
- Backdoor path를 없애는 대표적인 방법: Backdoor or Front-door adjustment
Random assignment
- Treatment T에 random assignment (ex. 동전 던지기)를 시행하면 do operator와 동일한 효과를 줌
- random assignment: 실제 데이터 상에서 적용할 수 있도록 역할을 함
- conditional distribution = interventional distribution
Backdoor Criterion and Adjustment
- Backdoor Criterion: X와 Y 간의 인과 관계를 제외한 모든 backdoor path를 막을 수 있는 변수들의 집합
- 특정 변수 간의 인과 관계를 분석할 때, 통제변수의 영향을 제거하거나 분리하기 위해 사용되는 기준
- X, Y의 인과 관계를 분석할 때, 관계를 왜곡시키는 통제변수의 영향을 제거하려면 어떤 변수들을 통제해야 하는지 나타내는 개념
- Backdoor path: 외부 요인으로 인해 인과 관계를 왜곡시킬 수 있는 경로
- Backdoor path를 막는다?
- 특정 변수를 통제 변수로 고려하거나 제어하여 인과 관계를 분석하는 것을 의미
- ex. confounder들의 집합 → backdoor criterion을 만족하는 집합 (collider는 불가능)
- 아래 그림에서 \(W_2\)와 \(C\)는 Confounder로 Backdoor Criterion를 만족함
- Backdoor Adjustment: Backdoor Criterion을 만족하는 모든 변수들을 conditioning 하고 control 하는 것
- confounder는 통제하고 collider는 통제하지 말라는 것을 formal 하게 얘기한 것
- 아래 그림에서 treatment \(t\)와 \(c, w_2\)를 통제하는 것으로 인과 관계를 추론할 수 있음
Front-door Adjustment
- confounder가 발견되지 않았을 때 사용하는 방법
- Step
- T가 M에 미치는 영향을 파악
- T를 통제하고, M이 Y에 미치는 영향을 파악
- T를 통제하면 W가 T에 영향을 미치지 못함 → Backdoor path를 차단한 상태로 추정
- 1, 2를 chain rule에 의해 효과를 곱하는 것으로 T가 Y에 미치는 인과 효과를 추정
Graphical/Structural Causal Model 주의점
- causal structure에 의존적임
- 이러한 그래프를 그리는 자체가 어려운 한계가 있음
- causal diagram을 증명할 수 있는 방법이 없음
- 현실에 부합하는 causal diagram을 그리기 위해서는 domain 전문가가 필요
- Ex. 흡연과 폐암의 인과 관계
- Ex. M-bias
- A 사례: 안전벨트 변수는 collider로 통제 불가
- B 사례:
- 안전벨트 변수를 통제하면 M-bias가 생김
- 안전벨트 변수를 통제하지 않으면 Backdoor path가 생김 ⇒ 2가지 bias 중에 어떤 것이 더 크리티컬 한 지 연구자가 판단하고 안전벨트를 conditioning 할 것인지 결정 필요
Section 7-4
Structure-Based Research Design
- 실험: 갱년기에 여성호르몬 치료를 하는 것이 자궁암을 유발한다.
- 1970년대 여성호르몬 치료와 자궁암 사이에 양의 상관관계가 있었음
- 예일대 연구팀: 여성호르몬 처방 → 자궁 출혈 → 정밀 검사 → 자궁암 발견
- 자궁 출혈이라는 요인을 통제하는 것으로 backdoor path를 막을 수 있다고 주장
- 하버드대 보스턴 연구팀: 호르몬 치료제의 인과적 효과를 밝힐 수 없다고 주장
- 적절한 연구 디자인이 아니라고 반박
- IPW 방법을 활용하여 Estrogens(여성호르몬)와 Uterine Bleeding(자궁 출혈)의 관계를 끊어내는 것으로 해결 가능
통제 변수 Design
- 인과 추론의 최후의 수단이 되어야 함
- 가지고 있는 변수만으로 눈에 보이지 않는 요인들을 통제하는 것은 어려움
- 2가지 현실적인 접근법
- Omitted variable이 분석 결과에 얼마나 민감한지 확인 → Sensitivity test or boundary analysis
- Boundary analysis: 특정 변수의 값을 변화시켜서 변수가 인과 관계에 어떤 영향을 미치는지를 확인할 때 사용
- Causal diagram 기반, backdoor path를 적절히 차단할 수 있는 통제 변수를 고려
- Omitted variable이 분석 결과에 얼마나 민감한지 확인 → Sensitivity test or boundary analysis
- Causal diagram이 storytelling에 효과적인 예시
Causal Decision Making
- 심슨의 역설 사례
- 개별적으로 보면 Treatment B가 사망률이 낮지만, 전체적으로는 Treatment A가 낮음
- 어떤 treatment를 결정할 수 있을까? → Causal diagram에 따라 달라진다.
- Causal Diagram1
- Causal Diagram2
Reference
반응형
'Causal inference' 카테고리의 다른 글
[KSSCI 2021] 인과추론의 데이터 과학 - Session 7/8 보충 (0) | 2023.08.22 |
---|---|
[KSSCI 2021] 인과추론의 데이터 과학 - 사전학습자료 (0) | 2023.08.15 |
[KSSCI 2021] 인과추론의 데이터 과학 - Session 3, 4 (0) | 2023.08.01 |
[KSSCI 2021] 인과추론의 데이터 과학 - Session 2 (0) | 2023.07.25 |
[KSSCI 2021] 인과추론의 데이터 과학 - Session 1 (0) | 2023.07.18 |
댓글