본문 바로가기
Causal inference

[KSSCI 2021] 인과추론의 데이터 과학 - Session 11

by Night Fury 2023. 9. 5.
인과추론의 데이터과학. (2021, Oct 11). [Session 11-1] 인과추론과 예측 방법론의 차이 [Video]. YouTube.
인과추론의 데이터과학. (2021, Oct 11). [Session 11-2] 실증연구에서의 빅데이터와 머신러닝의 역할 [Video]. YouTube.
인과추론의 데이터과학. (2021, Oct 18). [Session 11-3] 인과추론에서의 머신러닝의 활용 [Video]. YouTube.
인과추론의 데이터과학. (2021, Oct 18). [Session 11-4] 인과추론 기반의 예측 모델링 평가 [Video]. YouTube.[Video]. YouTube.

 

Session 11-1

Moneyball Lessons learned

  • 팀의 성적 향상이라는 공통된 목적 안에서 다른 세부적인 관점
    • Baseball Scout의 목표: 선수를 영입, 그들의 방식으로 득점을 끌어올리는 목적
      • 좋은 스윙, 타구등 작은 습관을 기준으로 선수 영입
      • 장기적으로 성장 가능성 + 지속적으로 코칭을 통한 발전 → 경험적으로 생성된 인과적 사고방식
    • Data Scientist의 목표: 득점을 극대화할 수 있는 선수 영입
      • 출루율, 득점률 등 데이터를 기반으로 한 선수 영입
  • 중요한 교훈: The right tool for the right question

Data Science / Analytics의 framework 목적

  • Input → Mechanism Theory Algorithm → Output
  • Intervention-oriented research (Input) → Causal inference model
    • intput을 조정하고 처리하는 것에 목적이 있는 경우
    • 어떤 변수가 output을 잘 예측하는 경우, 인과적인 관계를 실험해 볼 수도 있음
  • Solution-oriented research (Output) → Predictive model
    • target과 유사한 output을 얻는 것에 목적이 있는 경우

Example 1:

  • Setting
    • Intput (Safety Inspections)
    • Output (Urban Safety)
  • Intput → 어떤 요인(ex. 건물, 식당)이 식품 안전에 위협이 되는지 인과추론 실행
  • Output → 도시 안전 예측이 목적이라면, Predictive model 활용

Example 2:

  • Setting
    • Intput (Relationships in social networks)
    • Mechanism Theory Algorithm(Homophily, Peer influence)
    • Output (Sales, word-of-mouth)
  • Intervention: social network상에서 influence marketing
    • node끼리 서로 영향을 준다고 알려진 경우, 영향력 있는 node에 마케팅을 함으로써 구전효과를 빨리 일으키도록 유도할 수 있음
  • Correlation: 개별적으로 서로 영향이 없더라도, 사회적 유대는 좋은 예측 도구가 될 수 있음

Example 3:

  • Data: 전자 의료 기록
  • 목표
    • 뇌졸중 확률을 예측 → Predictive model
    • statin의 약물 처방이 뇌졸중을 낮출 수 있는지 인과추론 가능 → Causal inference

Causal inference VS Predictive model

  • Difference
    • To explain / To predict
    • Causation / Association (Correlation)
    • Bias / Variance
    • Retrospective (in-sample) / Prospective (out-of-sample)
  • Bias / Variance
    • MSE Decomposition
      $$ \begin{align*} E[(Y-\hat{f}(x))]^2 &= Var[\epsilon] + \{E[\hat{f}(x)]-f(x)\}^2\\ + E[(\hat{f}(x) - E[\hat{f}(x)])^2] \\ &= Var[\epsilon] + Bias^2 + Var[\hat{f}(x)] \end{align*} $$
    • Predictive model: minimize MSE (combination of bias and variance)
    • Causal inference: minimize bias
      • 실제로는 bias를 계산할 수가 없음 (이론적으로만 MSE decomposition이 가능)
      ⇒ research design, causal structual model이 필요함
  • 목적에 따른 방법론 분류

출처: 인과추론의 데이터과학

 

Session 11-2

Big data, ML in Causal Inference

  • Computational Social Science ≠ Computer Science + Social data
    • social scientist : causal inference를 추구하는 사람
    • computer scientist : prediction을 추구하는 사람
    ⇒ 목적에 대한 차이 (연구 목적에 따라 적절한 방법론을 선택할 수 있어야 함)
  • Big data가 근본적인 인과 추론 문제를 해결할 수 있나요?
    • 아니요 → 데이터를 활용한 potential outcome이기 때문에, counterfactual은 알 수가 없어요.
    • Large N (sample 수) → 중요한 결과를 얻는 것에는 도움을 주지만, unbiased estimate을 얻는데는 도움 안 됨
    • Large P (variable 수) → 데이터와 변수가 많을 수록, control / conditioning이 가능함 ⇒ 하지만, 결과 변수에 영향을 미치는 모든 변수를 얻을 수 있을지는 미지수
  • Research design은 빅 데이터 시대에도 중요하다

연구 방법론의 3가지 딜레마

  • 딜레마
    • Generalizability: 전체 모수에 대해 일반화가 가능한지
      • formal theory: 타당한 이론 정립
      • sample surveys: 랜덤 샘플링이 전제가 되어야함
    • Control: internal validity; rigor → 얼마나 선택 편향을 배제함으로써 인과추론을 깔끔하게 할 수 있는지
      • laboratory experiments
    • Realism: external validity; relevance →실제 현실에 적용 가능한지
      • field experiment, field studies : 실제 현장에서 세팅되어야 함

출처: 인과추론의 데이터과학

  • Reconciling Internal and External Validities
    • randomized field experiment on Facebook → Control, Realism
    • sample of 1.3 million users → Generalizability
  • Uncovering the Underlying Mechanisms
    • 빅 데이터의 힘은 세밀한 데이터를 확보할 수 있는 것
      1. 인과 효과를 robust하게 추정 가능
      2. 조건에 따라 다른 heterogeneity(이질성)를 분석 가능
      3. Underlying Mechanisms을 밝힐 수 있음
  • 과거에 분석하기 어려웠던 unstructured data를 large scale로 분석 가능 → Empirical Research의 폭을 확장함
    • ex. 성격 연구: 과거에는 설문 조사, 인터뷰를 했을 것 (대규모 분석의 한계) → 현재는 텍스트를 기반으로 NLP를 활용한 예측 가능

 

Session 11-3

New data for Causal Inference

  • 빅데이터와 ML이 새로운 인과추론을 할 수 있게함
  • ML, DL은 5V 중에서 Volume, Variety와 관련이 있음
    → large scale 분석 가능, 인과 추론의 범위가 확장됨
  • Example
    • Earning Conference Calls에서 사용하는 단어 기반, 회사 문화 분류
    • 이미지의 복잡성에 따라 소비자의 참여도가 어떻게 달라지는지 분석
    • App Store에서 Copycat App을 찾아내는 알고리즘 → Copycat App이 모바일 생태계에 미치는 영향 분석 가능

인과추론의 보조 수단으로 ML 모델 응용

  • 도구 변수: 1번째 stage는 도구 변수로 원인변수를 예측하는 것 → ML을 활용
  • ML을 활용하여 차원 축소를 통해 차원의 저주를 해결 가능
    • 차원의 저주(Curse of dimensionality): 추정하는 변수가 관측에 비해 너무 많은 경우, 통계적 추정이 효율적이지 않음
    • ex. double selection procedure ⇒ 선택 편향을 통제 + 차원의 저주 방지
      • 결과 변수 예측에 도움이 되는 변수를 select
      • 원인 변수 예측에 도움이 되는 변수를 select

Heterogeneous Causal Effects

  • Heterogeneous: 이질적인
  • ML이 인과추론에서 가장 많이 활용되고 있는 분야
  • Causal decision making에 중요한 부분
  • ex. Decision Tree, RF을 활용
    • 기존: loss function → MSE 최소화
    • 신규: loss function → Causal effect 극대화

출처: 인과추론의 데이터과학

Synthetic Control (Pseudo-Counterfactual)

  • Potential outcomes framework → 비교가능한 control group으로 Counterfactual을 추정
    • Ceteris Paribus
  • Synthetic control: control group을 잘 종합하는 것으로 Counterfactual을 추정하는 컨셉
    • synthesize: 합성하다
    • treatment가 없을 때의 treatment group의 패턴을 control group을 활용해서 예측
      • treatment 이전(pre-intervention)에 대한 예측 모델 생성
        = Pseudo-Counterfactual을 예측하는 것
      • treatment 이후의 트렌드와 예측 차이로 인과 효과를 추론
    • control group이 없어도 활용 가능 → Pseudo-Counterfactual Approach
      • ex. A 도시의 정책 효과 분석
        • A와 비슷한 B, C, D 도시 데이터를 기반으로 Synthetic control 모델링
          • Ceteris paribus
        • A 도시의 정책(treatment) 이후 효과를 관찰한 후, 모델의 예측 결과와 차이 비교 ⇒ 인과 효과 추론
        • RCT나 준실험 Design을 활용하여 검증을 한다면 best

 

Session 11-4

Netflix의 추천 알고리즘 평가

  • test셋의 효과가 실제 business에도 적용되기 위해서는, 새로운 알고리즘을 도입했을 때 기존과 동일한 방식으로 반응할 것이라는 가정이 필요함
    • 사람들은 fix 되어 있지 않음
    • 여러 요인에 의해, 새로운 알고리즘을 도입했을 때 기존과 동일한 방식으로 반응하지 않을 수 있음
  • offline experiment → A/B test
    • 과거 데이터를 기반으로 모델을 검증: offline experiment
    • 과거 알고리즘과 신규 알고리즘 A/B test 적용

출처: 인과추론의 데이터과학

예측 모델도 Selection Bias에서 자유롭지 않음

  • 현실의 많은 데이터들은 여러 가지 요인들에 의해 이미 선택된 경우가 많음 → selective lables
    • 예측 모델링에서도 인과 추론의 관점이 필요하고 research design이 중요함
  • ex. 재판의 판결
    • 상황: 판사의 보석 석방/구금에 대한 결정
    • 목적: 재범율 최소화
    • 문제: 보석 석방된 사람들의 재범율 데이터만 존재, 구금된 사람들의 데이터는 관찰되지 않음
    • 해결방안:
      • randomized experiment 활용 → simulation이 아닌 현실이기 때문에 적용이 어려움
      • 현실적인 상황: 가지고 있는 데이터만 활용 가능 (보석 석방된 사람들의 재범율) → simulation
        • 석방된 사람들의 재범율과 알고리즘을 통해 석방된 사람들의 재범율 비교 → 두 집단이 비교 불가능
        • 판사들이 이미 재범율이 낮다고 판단한 사람들을 기반으로 알고리즘이 예측했기 때문에, 알고리즘 성능이 더 좋다고 할 수 밖에 없음
    • 연구 Design: 판사들의 성향에 따라 석방률이 다른 것을 활용
      • 관대한 판사가 석방한 사람들 중, 알고리즘이 예측한 재범율이 높은 사람들을 제외 → 두 판사의 재범율 비교
      • 석방된 모든 사람 vs 예측으로 석방된 사람보다 훨씬 비교 가능함
      • 판사의 판결 성향과 피고가 배정되는 판사가 random하다는 가정이 필요함

출처: 인과추론의 데이터과학

반응형

댓글