플로랑 뷔송, 『Behavioral Data Analysis with R and Python』, 시진, 한빛미디어-OREILLY(2023), p30-48.
Learned
분석의 유형
- 기술 분석(descriptive analytics): 데이터에 대한 설명 제공
- 비즈니스 보고 (평균, 간단한 지표 등)
- e.g. 작년 이익은 얼마일까?
- 예측(prediction): 측정되지 않은 것을 알려줌
- e.g. 다음 달에 구독을 취소하는 고객을 몇 명일까?
- 인과관계(causal analytics): 데이터의 인과관계를 제공
- 주로 RCT(Randomized Controlled Trial)를 활용 → A/B Test
- 교란(confounding) 현상을 파악하고 해결할 수 있는 장점이 있음
- e.g. 광고를 하지 않으면, 다음 달 매출이 얼마나 감소할까?
보간법 vs 보외법
- 보간법(interpolation): 예측하려는 점이 관측값이 모여 있는 영역 안에 있는 경우
- 보외법(extrapolation): 예측하려는 점이 관측값이 모여 있는 영역 밖에 있는 경우
- 특정 범위에 적용되는 규칙이 밖에서도 적용될 것이라 믿어야 하기 때문에 다소 도전적임
벅슨의 역설(Berkson’s paradox)
= 해명 효과(explain-away effect)
- e.g. 충돌 요인(collider)
- 데이터에 편향이 있을 때, 인위적인 상관관계가 생기는 현상
- 변수를 고려하지 않았다면 주장이 성립했을 것이지만, 해당 변수를 고려해 그룹을 나누게 되면 오히려 잘못된 관계를 추정하게 되는 현상
Reference
반응형
'Causal inference' 카테고리의 다른 글
Chapter 2. 행동 데이터를 이해하는 방법 (2) | 2023.11.25 |
---|---|
[KSSCI 2021] 인과추론의 데이터 과학 - Session 5 (0) | 2023.10.16 |
[KSSCI 2021] 인과추론의 데이터 과학 - Session 18 (0) | 2023.10.15 |
Part 5. Advanced Topics for Analyzing Experiments (0) | 2023.10.12 |
[KSSCI 2021] 인과추론의 데이터 과학 - Session 17 (0) | 2023.10.12 |
댓글