인과추론의 데이터과학. (2021, Nov 25). [Session 17] 인과추론을 위한 데이터셋 구성 (코로나19 사례) [Video]. YouTube.
Session 17
- Kaggle DS4C datasets
- 2015 메르스 이후, 감염병 환자들의 정보를 신속히 공개하고 있음
Problems
- Decentralized publication: 형식이 변경될 때마다, 정기적으로 코드 업데이트 or 수동 입력
- Absence of a unified formatting: 시도/시군구 합쳐있던지, 이미지로 양식을 올리던지 등등..
- Data embedded in natural language: 문자열 구분이 어려웠음, 위치 정보 추출 및 정량화도 어려웠음
Scheme
- 잘 알려진 Johs hopkins 데이터 대비, 더 많은 정보를 공개하고 있음
- infection case별 구분값을 추가함
- 정부 정책 및 시행, 마감일자를 추가함
Patient Route Data
- 카드 사용 내역 + phone GPS(SKT) + closed-circuit cameras 기반 마스크 착용 여부 확인
- 환자의 개인 정보와 환자 경로 데이터를 결합해서 제공
반응형
'Causal inference' 카테고리의 다른 글
[KSSCI 2021] 인과추론의 데이터 과학 - Session 18 (0) | 2023.10.15 |
---|---|
Part 5. Advanced Topics for Analyzing Experiments (0) | 2023.10.12 |
[KSSCI 2021] 인과추론의 데이터 과학 - Session 12 (1) | 2023.10.11 |
[KSSCI 2021] 인과추론의 데이터 과학 - Session 16 (0) | 2023.10.11 |
Part 4. Advanced Topics for Building anExperimentation Platform (0) | 2023.10.05 |
댓글