[KSSCI 2021] 인과추론의 데이터 과학

인과추론의 데이터과학. (2021, Aug 30). [Session 3-1] 무작위 통제실험 연구사례 1: 출근시간 타켓 마케팅의 인과적 효과 [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 2). [Session 3-2] 무작위 통제실험 연구사례 2: 걷기 운동 동기부여를 위한 모바일앱 인센티브 디자인 [Video]. YouTube.
인과추론의 데이터과학. (2021, Sep 6). [Session 4] IT기업에서의 A/B 테스트 활용 [Video]. YouTube.

Session 3-1

Contextual targeting 연구 소개

문제 상황
- mobile coupon이 paper coupon보다 redemption rate이 낮았음
  - redemption rate: 특정 기간 동안 제공된 특정 혜택이나 쿠폰, 할인 등의 이벤트에 참여한 사람들 중에서 실제로 해당 혜택을 사용한 비율
- media만 바뀌었을 뿐, 좋은 점이 없어보였음
모바일의 장점
- 항상 휴대하고 있음 → 원하는 시간에 쿠폰을 고객에게 보낼 수 있음 (Temporal Aspect)
- GPS 기반, 사용자의 위치를 파악 가능 → Geographic targeting 가능 (Geographic Aspect)
⇒ Contextual targeting이 논문의 목적 (Contextual = Temporal + Geographic)
Context 특징
- 평균적으로 매일 1시간 context를 소비
- Top 3%는 매일 3시간 context를 소비
- context 된 사람의 89%는 mobile phone을 사용

Contextual targeting 예시 (Commuting)

연구 목적
- commuting이라는 context가 모바일 쿠폰과 관련이 있는가?
- commuting과 모바일 쿠폰의 반응(ex. 유저 속성, 쿠폰 특징)에 어떤 관계가 있는가?
가설
- Commuting은 주로 stress와 관련된 연구가 많았음
  - 출퇴근 스트레스..
- 2가지 관점
  - Physiology(생리학): 식욕을 높임
    - 음식과 음료 쿠폰을 주면 redemption rate이 높지 않을까?
  - Psychology(심리학): 예측 가능하고 생산 가능한 일을 함 (ex. 저축)
    - 쿠폰을 주면 결과가 명확한 행위를 더 하지 않을까?
연구 세팅
- T-map 대중교통에서 실행함
  - Key feature: 사용자의 위치정보를 바탕으로 환승 정보, 도착 정보 등을 알려줌
- Guidance를 받는 기능
  - 집, 직장에 대한 주소를 등록
    - ”집으로”, ”직장으로”와 같은 버튼 클릭으로 간편하게 경로 탐색이 가능
  - Commuting Route의 정의
    - 집 → 직장, 직장 → 집
    - 위 2개 이외는 non-commuting route로 지정

A. 쿠폰을 단 1개만 받은 고객을 비교 분석

목적: redemption rate의 treatment 효과를 파악
treatment: 출퇴근에 쿠폰을 받았는지 여부
통제 요인: 시간, 요일, 상품, 만료 기간, 사용자의 특성 (쿠폰을 받은 직전 주의 사용량, 빈도 등)
모델: Logistic regression 활용
- pretest-posttest control group design
  - treatment 효과: treatment group(after - before) - control group(after - before)
  - DID 활용
- posttest-only control group design
  - pretest-posttest control group design은 쿠폰을 주기 전의 효과를 알기 어려웠음
  - treatment 효과: treatment group(after) - control group(after)
  - Logistic regression 활용 → outcome이 binary 변수라서
Matching 활용
- Commuter 타겟과 Non-commuter 타겟의 다른 조건을 동일하게 세팅 (ceteris paribus)
  - User composition(쿠폰 사용 빈도 등), Targeting specification (날짜, 만료 기간 등)
- t-test와 propensity score로 측정
결과
- Commuter target이 2배 이상 쿠폰의 효과가 있었음

B. 쿠폰을 여러 개 받은 고객을 포함하여 비교 분석

목적: 최적의 모바일 쿠폰 distribution strategy 결정
treatment:
- 출퇴근에 쿠폰을 받았는지 여부 + Interaction(받은 쿠폰 수, 쿠폰 만료 기간)
통제 요인: 시간, 요일, 상품, 사용자의 특성
2가지 Matching 활용
- Static Matching
  - 매칭된 쌍이 변하지 않음
  - 하기 편한 장점이 있음
- Dynamic Matching
  - 시간에 따라 매칭된 쌍이 바뀔 수 있음
  - 매시점에서 가장 유사한 매칭을 함
Covariance balance 활용
- covariate balance: 실험 또는 연구에서 처리 그룹과 비교 그룹 간에 공변량(특정 변수)들이 잘 균형되어 있는지를 확인하는 통계적 지표
  - Static Matching: 60% 개선
  - Dynamic Matching: 70% 개선
결과
- 출퇴근에 쿠폰을 받았는지 여부 + Interaction(받은 쿠폰 수)
  - Commuter target은 1개의 쿠폰을 주는 것이 효과적임
  - Non-Commuter target은 여러 개의 쿠폰을 주는 것이 효과적임
- 출퇴근에 쿠폰을 받았는지 여부 + Interaction(쿠폰 만료 기간)
  - Commuter target은 만료 기간이 짧은 것이 효과적임
  - Non-Commuter target은 만료 기간이 긴 것이 효과적임

Robustness check

demographic 정보 → optional (0: 응답 안 함, 1: female, 2: male)
location 정보 → 쿠폰을 교환한 매장의 주소를 기반으로 추정함 (ex. 수도권, 비수도권, traveling)
endogeneity of app usage behavior
- 쿠폰을 줘서 앱의 사용 빈도가 증가되는 현상을 통제하려는 목적
- OLS를 활용
- residual을 핵심 모델의 변수로 활용함
redemption period
- 쿠폰을 받고 교환하기까지 걸린 시간
- 쿠폰을 받은 날 바로 사용한 경우, 효과가 가장 좋았음
stress 시간대
- 아침/저녁, rush hour → rush hour에서 효과가 높았음
within-effects of commuter targeting
- 동일한 유저가 commuter 그룹에 있을 때와 non-commuter 그룹에 있을 때 차이 비교
- commuter 그룹에서 효과가 높았음

Session 3-2

연구 소개

문제 정의
- 어떻게 하면 physical inactivity 문제를 해결할 수 있을까?
  - 80%가 physical inactivity 문제가 있음
- 스마트폰을 활용하면 해결할 수 있지 않을까?
  - 한 사람당 12번 정도 스마트폰 앱 체크를 한다고 함
  - 운동은 내 자신을 통제해야 하기 때문에, 많은 실패가 있었다고 함
  - reward로 motivation을 일으킬 때, 결과가 좋았음 (ex. 10만보 걸으면 기부해 줄게!)
Treatment
- Incentive scheme: Egoistic(이기적인) or Philanthropic(박애주의 → 타인을 돕는)
- Incentive requirement: high or low
- Incentive reward: high or low
- ex. Get (or Donate) $10 for 100,00 steps a week
  - Get (or Donate): Incentive scheme
  - $10: Incentive requirement
  - 100,00 steps a week: Incentive reward
연구 목표: 어떻게 하면 가장 효과적인 Incentive design으로 physical inactivity 문제를 해결할 수 있을까?

실험 설계

랜덤화 방법: user id를 난수로 생성 → 이렇게 해도 완벽하게 random 하게 되기에는 부족함
Sample: 4000명 유저를 그룹별 500명씩 할당
Outcome:
- Accept or not
- Achieve or not
- Number of Steps

Theoretical Framework

Reward를 높이는 것과 Requirement를 낮추는 것 중에서 어느 것이 효과적일까?
self-perception을 활용
- 사람은 어떤 행동을 통해서 추구하는 이미지를 생각함
  - ex. 닭가슴살을 먹으면서 몸짱이 되는 모습을 상상하는 것
- Egoistic: 연봉 협상, 시험볼 때 주로 나타남
  - perception: high reward → competence, ability, performance
- Philanthropic: 기부하거나 봉사할 때 주로 나타남
  - perception: low requirement → warm-glow, well-being, positive affec

Robustness check

Incentive scheme: Egoistic이 평균 달성률이 높았음
requirement: 낮은 case가 평균 달성률이 높았음
reward: 높은 case가 평균 달성률이 높았음
모든 조합에서 Egoistic이 높았으나, low requirement & low reward에서는 Philanthropic이 높았음

PSM(propensity score matching) 방법을 채택했음
- 랜덤화가 불완전할 수 있어서 따로 진행함
이상치: 유저가 원래 어떤 행동을 보였는지 행동하는 것으로 해결
- 이상치 ex. 원래 마라톤 하는 사람

Key finding

Egoistic에서는 high reward가, Philanthropic에서는 low requirement가 효과적이었다.
low requirement & low reward에서는 Philanthropic이 높았다.
finance health incentives의 최적해에 대한 애매함을 조사했다.

Session 4

쿠팡 예시

문제 상황
- 매 시도마다 지표는 오르락내리락..
- 1년 동안 열심히 해도 매출과 유저 지표는 제자리걸음
문제 정의
- 지표가 올라가고 내려간 원인을 모름
- 모 IT 기업의 A/B 테스트에서 B 그룹이 이긴 경우는 50% 남짓
해결 방법
- 매 기능 개선건마다, 지표가 올라가고 내려간 원인을 파악
  - 발견한 원인으로 인과관계가 높고 성공확률이 높은 도전을 할 수 있음
- 인과 추론을 하자!

인과 추론

인과추론은 중요하다
- 단순히 원하는 지표와 기능의 인과관계뿐만 아니라, 비즈니스의 핵심 가설 검증에도 사용됨
Ex. 쿠팡의 핵심 서비스: ‘로켓 배송’. 그렇다면 로켓 배송이 가능한 제품인지 어떻게 판단했을까?
- 이커머스 시장의 국룰: 최저가 경쟁
- 고객 민원이 발생: 배송이 늦고, 잦은 파손 + 느린 민원 대응
- 가설: 직접/이익 배송으로 최고의 경험을 제공하면, 고객의 재구매로 이어지지 않을까?
- 실험: 모 지역의 아파트 단지에서 유저를 반으로 분리함
  - A 그룹: 기존의 외주 택배 배송
  - B 그룹: 직접/익일 배송
  - 성공지표: 고객의 재구매율
- 결과: B 그룹의 재구매율이 월등히 높았음
  - A/B 테스트를 기반으로 쿠팡이 로켓 배송을 시작하고 이커머스 시장을 바꾸게 됨
IT 기업/업계에서의 인과추론 방식
- 주로 A/B 테스트를 함
- 각종 분석 방법론을 사용한 인과추론 → 난이도가 높고 시간이 오래 걸림 + 부정확
- 모델링 (시뮬레이션) → 특정한 경우에만 사용 (비용 모델링, 유저 프로젝션)
학계와 업계의 주요 방법론이 다른 이유
- 업계는 데이터 접근이 매우 쉬움
- 업계는 데이터의 양과 종류가 풍부함
- 업계는 필요하면 데이터를 직접 만들 수 있음 → 필요하면 A/B 테스트 가능

A/B 테스트

종류
- 단순 지표 분석
- 퍼널 분석
- 다변량 A/B 테스트 → 어떤 조합이 좋을까?
- Multi-armed Bandit A/B → 안 좋은 지표의 트래픽을 높게 유지하는 것은 손해다. (Recsys)
단순 지표 분석
- Google Optimize 활용
  - A, B 중에 더 좋은 대안에 대한 정보를 알려줌 (ex. 이길 확률)
  - 전환율 신뢰구간 제공
퍼널 분석
- A, B 그룹을 분리해서 퍼널을 분석하는 방법
- 매 여정마다 어디가 가장 많이 이탈하는 요인인지 판단 가능
다변량 A/B 테스트
- ex. 오바마 선거 캠프
  - 사진, 버튼 등의 조합들의 변화를 테스트

기업에서 인과추론의 의미

The American Soldier: 2차 세계대전에 참전한 미군들에 대한 광범위한 연구를 정리한 책
- 고학력 군인들은 그렇지 못한 군인들에 비해 더 많은 정신신경증적 증상을 보였다.
- 남부 출신 군인들은 북부 군인들에 비해 남양제도의 더운 기후를 더 잘 견딜 수 있었다.
- 백인 사병들은 흑인들에 비해 장교가 되고 싶은 마음이 더 강했다.
⇒ 너무 당연한 얘기하는거 아닌가?? ⇒ 모두 정반대가 사실이었다.
사후판단 편향 (Hindsight Bias)
- 그럴듯한 이야기를 듣고 “너무 당연한거 아니야?”라는 생각을 하게 됨
- 사람의 직관은 생각보다 잘 틀린다.
- 인간은 직관, 믿음을 합리화하는 동물이다.
조직문화: 권위 기반 의사결정 vs 데이터 기반 의사결정
- 권위 기반 의사결정: 빅마우스의 말을 따라가는 것 (권위 있는 사람의 느낌, 직감, 믿음을 따름)
  - ex. 대표님이 지시하신 기능을 전체 배포했습니다~ 결과는 몰라요 ㅠㅠ
- 데이터 기반 의사결정: 토론의 기반이 데이터, 논리, 명확한 인과관계라는 약속으로 이뤄지는 것
  - ex. 대표님 의견을 A/B 테스트해봤는데 매출이 떨어졌어요.
기업에서 인과관계를 본다는 것은 무엇일까?
- 수평적으로 합리적인 의사결정을 할 수 있는 것을 의미함
- 권위가 아닌 데이터에 기반한 가장 좋은 아이디어가 채택
- 이런 조직일수록, 어리고 똑똑한 리더가 많음
- 과연 실험 결과(인과관계)라는 hard fact 없이 이게 쉬웠을까?
- 크고 작은 기능 개선의 효과를 명확하게 볼 수 있음
- 시장을 뒤흔들 가설을 검증할 수 있음
⇒ 합리적이고 건강한 조직을 만드는 것을 의미

저작자표시 비영리 변경금지 (새창열림)

'Mathematics > Causal inference' 카테고리의 다른 글

[KSSCI 2021] 인과추론의 데이터 과학 - 사전학습자료 (0)	2023.08.15
[KSSCI 2021] 인과추론의 데이터 과학 - Session 7 (0)	2023.08.08
[KSSCI 2021] 인과추론의 데이터 과학 - Session 2 (0)	2023.07.25
[KSSCI 2021] 인과추론의 데이터 과학 - Session 1 (0)	2023.07.18
[KSSCI 2021] 인과추론의 데이터 과학 - Session 0 (0)	2023.07.18

NightFury

[KSSCI 2021] 인과추론의 데이터 과학 - Session 3, 4

Session 3-1

Contextual targeting 연구 소개

Contextual targeting 예시 (Commuting)

A. 쿠폰을 단 1개만 받은 고객을 비교 분석

B. 쿠폰을 여러 개 받은 고객을 포함하여 비교 분석

Robustness check

Session 3-2

연구 소개

실험 설계

Theoretical Framework

Robustness check

Key finding

Session 4

쿠팡 예시

인과 추론

A/B 테스트

기업에서 인과추론의 의미

'Mathematics > Causal inference' 카테고리의 다른 글

댓글

티스토리툴바

[KSSCI 2021] 인과추론의 데이터 과학 - Session 3, 4

Session 3-1

Contextual targeting 연구 소개

Contextual targeting 예시 (Commuting)

A. 쿠폰을 단 1개만 받은 고객을 비교 분석

B. 쿠폰을 여러 개 받은 고객을 포함하여 비교 분석

Robustness check

Session 3-2

연구 소개

실험 설계

Theoretical Framework

Robustness check

Key finding

Session 4

쿠팡 예시

인과 추론

A/B 테스트

기업에서 인과추론의 의미

'Mathematics > Causal inference' 카테고리의 다른 글

관련글

댓글

티스토리툴바