본문 바로가기

분류 전체보기45

[KSSCI 2021] 인과추론의 데이터 과학 - Session 16 인과추론의 데이터과학. (2021, Nov 2). [Session 16-1] 구조적 인과모형 (Structural Causal Model) [Video]. YouTube. 인과추론의 데이터과학. (2021, Nov 2). [Session 16-2] 구조적 인과모형에서의 인과추론 [Video]. YouTube. Session 16-1 Key points Structural Causal Models (SCMs)은 causality를 연구하기 위한 포괄적인 framwork Unified framework: SCM subsumes PO-based causality (Potential outcome을 표현 가능) Axiomatization: SCM is the sound and complete language o.. 2023. 10. 11.
Part 4. Advanced Topics for Building anExperimentation Platform 론 코하비, 다이앤 탕, 야 쉬, 『A/B 테스트 신뢰할 수 있는 온라인 종합 대조 실험』, 이기홍, 김기영, 에이콘출판사-MANNING(2022), p219-257. Client-Side Experiments Differences between Server and Client Side Release Process server: continuous integration and deployment (CI/CD) client: 앱 소유자, 앱 스토어, 사용자가 관련됨 Data Communication Internet connectivity: 서버 측 데이터 변경사항이 클라이언트로 전송되지 않거나 지연될 수 있음 Cellular data bandwidth Battery: 데이터 통신이 많을수록 배터리 소모 증.. 2023. 10. 5.
Part 3. Complementary and AlternativeTechniques to Controlled Experiments 론 코하비, 다이앤 탕, 야 쉬, 『A/B 테스트 신뢰할 수 있는 온라인 종합 대조 실험』, 이기홍, 김기영, 에이콘출판사-MANNING(2022), p190-217. Complementary Techniques The Space of Complementary Techniques ideas funnel (Ideas for experiments) 구현이 쉬운 경우: 대조실험을 통해 직접 테스트하는 것을 권장 구현 비용이 많이 드는 경우: Complementary Techniques을 통해 구현 비용을 절감 Validated metrics proxy metric 활용 → 현실에서 측정이 어려운 ‘사용자 만족’과 같은 요소를 가늠할 수 있음 Evidence supporting or refuting hypoth.. 2023. 10. 5.
[KSSCI 2021] 인과추론의 데이터 과학 - Session 15 인과추론의 데이터과학. (2021, Nov 11). [Session 15-1] 인과적 의사결정 (Causal Decision Making) [Video]. YouTube. 인과추론의 데이터과학. (2021, Nov 11). [Session 15-2] 처방적 분석 (Prescriptive Analytics) [Video]. YouTube. 인과추론의 데이터과학. (2021, Nov 11). [Session 15-3] 처방적 분석 연구사례 [Video]. YouTube. Session 15-1 Causal inference and Decision Making Causal inference for decision making how causal knowledge affects decision Decision .. 2023. 10. 3.
Chapter 8. 비지도 학습: 토픽 모델링 및 클러스터링 젠스 알브레히트, 시다르트 라마찬드란, 크리스티안 윙클러, 『파이썬 라이브러리를 활용한 텍스트 분석 Blueprints for Text Analytics Using Python』, 심상진, 한빛미디어-OREILLY(2022), p281-320. NMF (Non-negative Matrix Factorization) 비음수 행렬 분해 선형대수 기반 방법론 문서-용어 행렬의 인수분해로 문서 말뭉치에서 잠재 구조를 가장 쉽게 찾을 수 있음 문서-용어 행렬은 양수 값 요소만 있어서 NMF 활용 가능 \(V\approx W\cdot H\) V: 문서 * 단어 W: 문서 * 토픽 H: 토픽 * 단어 구현 sklearn.decomposition.NMF 활용 임의의 주제 개수를 선택 (n_components) 각 토픽.. 2023. 9. 30.
Chapter 7. 텍스트 분류기 젠스 알브레히트, 시다르트 라마찬드란, 크리스티안 윙클러, 『파이썬 라이브러리를 활용한 텍스트 분석 Blueprints for Text Analytics Using Python』, 심상진, 한빛미디어-OREILLY(2022), p252-279. Definition ground truth: 우리가 정한 정답, 모델이 우리가 원하는 정답으로 예측해주길 바라는 답 Using predict probability 올바르게 예측한 값과 틀린 값은 모델이 얼마나 확신을 갖고 결정했는지 histogram으로 확인 Correct → 높은 확률로 결정되는 경우가 많았음 Wrong → 모델이 헷갈려하는 경우가 많았음 (histogram에서 0.4-0.6에 빈도가 치중됨 특정 임계치 (ex. 80%)를 기준을 넘는 결정만 고.. 2023. 9. 29.
[KSSCI 2021] 인과추론의 데이터 과학 - Session 14 인과추론의 데이터과학. (2021, Nov 1). [Session 14-1] 신약 개발에서의 인과추론의 역할과 한계 [Video]. YouTube. 인과추론의 데이터과학. (2021, Nov 1). [Session 14-2] 머신러닝을 활용한 이질적 인과관계 분석 [Video]. YouTube. Session 14-1 약물 개발 신규 10-17년, $2-3 billion 높은 실패율 (평균적으로 90%) Recycling: repurposing 3-12년 안정성 담보 RCTs란? (Randomized clinical trials) treatment의 효과를 측정하는 방식 참가자들을 2가지 그룹으로 분리 (new treatment vs standard treatment) 비싸고, 높은 실패율, 때로는 안전.. 2023. 9. 27.
[KSSCI 2021] 인과추론의 데이터 과학 - Session 13 인과추론의 데이터과학. (2021, Oct 25). [Session 13-1] 머신러닝의 해석 가능성과 인과추론 [Video]. YouTube. 인과추론의 데이터과학. (2021, Oct 25). [Session 13-2] 인과추론을 위한 머신러닝 모델 [Video]. YouTube. Session 13-1 왜 causality가 가치 있을까? actionable strategy를 줄 수 있다 실제로는 causality, association 모두 힘들다 왜 어려울까? 실제 세상은 복잡하다 데이터가 완벽하지 않다 알 수 없는 요인들이 많다 Summary Causal ML/DL은 기존 전통 모델의 연장선이다 장점: 복잡한 feature space를 탐색 가능 단점: 불완전한 데이터를 해결 못함, 도메인/이.. 2023. 9. 27.
Part 2. Selected Topics for Everyone 론 코하비, 다이앤 탕, 야 쉬, 『A/B 테스트 신뢰할 수 있는 온라인 종합 대조 실험』, 이기홍, 김기영, 에이콘출판사-MANNING(2022), p130-189. 5. 속도의 중요성: 엔드투엔드 사례 연구 많은 실험이 UI에 초점을 맞추지만, 백엔드 측면에서도 많은 혁신이 일어난다. ex. Bing: 0.1초 개선마다 1억 8천만 달러의 매출 증가 가치 성능 개선이 주요 지표에 미치는 영향을 측정하는 것이 중요 어느 부분의 성능 개선이 가장 중요한가?? 성능 개선이 어떤 지표 X에 미치는 영향은 무엇인가? 성능 개선이 매출에 미치는 영향은? 새로운 기능의 초기 구현 속도를 높이는 경우, 지표 X가 개선되는가? 성능 개선으로 장기적 영향이 있는가? (ex. 해지 고객 감소) Slowdown 실험의 주.. 2023. 9. 13.
Part 1. 03~04 론 코하비, 다이앤 탕, 야 쉬, 『A/B 테스트 신뢰할 수 있는 온라인 종합 대조 실험』, 이기홍, 김기영, 에이콘출판사-MANNING(2022), p78-129. 3. 트위먼의 법칙과 실험의 신뢰도 트위먼의 법칙: 흥미롭게 보이거나 다르게 보이는 모든 것들은 대체로 틀렸다. 2가지 상이한 반응 긍정적인 결과: 그것을 중심으로 이야기를 만들고 공유하고 축하하는 경향이 있음 (ex. 핵심 지표의 현저한 개선) 부정정인 결과: 연구의 한계나 사소한 결함을 찾아내고 그것을 기각해 버리는 경향 실험 결과의 신뢰도를 높이기 위한 방법 결과에 이상이 있을 수 있다는 것을 나타내는 일련의 테스트와 실습 권장 Ex. assert문을 활용한 테스트 통계 결과의 잘못된 해석 통계적 검정력 부족 일반적인 실수: 지표가 통.. 2023. 9. 7.
반응형