본문 바로가기

분류 전체보기45

Chapter 3. Apache DAG의 구조 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p40-61. Scheduling 설정한 시작 날짜를 기준으로 첫 번째 DAG의 실행을 스케줄링 시작 날짜 + 간격 Airflow는 종료일이 없으면 DAG를 매일 스케줄 된 대로 영원히 실행 end_date에 설정하면 실행 중지 가능 cron example 매주 월, 화, 금요일 자정 실행 → 0 0 * * MON, WED, FRI 매일 자정 및 오후 12시에 실행 → 0 0,12 * * * 특정 빈도마다 스케줄을 정의할 수 없는 제약이 있음 (e.g. 3일에 1번 실행) datetime.timedelta(days=3)을 schedule_interval에 기입하.. 2024. 1. 21.
Chapter 2. Apache DAG의 구조 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p20-40. DAG 모든 워크플로의 시작점 워크플로 내의 모든 태스크는 DAG 개체를 참조함 parameter dag_id: Airflow UI에 표시되는 DAG 이름 start_date: 워크플로가 처음 실행되는 시간 schedule_interval: DAG 실행 간격 의존성(dependency) 각 오퍼레이터는 서로 독립적으로 실행할 수 있음 (순서 정의 필요) 화살표 >>(rshift)는 태스크 실행 순서를 설정 → 의존성 정의 Task vs Operator operator: 단일 작업 수행 역할 BashOperator, PythonOperator, Si.. 2024. 1. 15.
Chapter 1. Apache Airflow 살펴보기 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p3-19. Airflow? 데이터 파이프라인을 처리하기 위한 배치 태스크 다양한 분산 시스템에서 발생하는 작업을 조율 데이터 처리를 위한 다양한 구성 요소들을 조정 Open source! Airflow의 주요 기능 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축 가능 파이프라인, 워크플로우 태스크를 DAG로 정의 가능 DAG (Directed Acyclic Graph): 방향성 비순환 그래프 반복이나 순환을 허용하지 않음 끝점(directed edge)을 포함 DAG를 Python 코드로 정의하면, 많은 유연성을 제공할 수 있음 쉽게 확장 가능.. 2024. 1. 10.
Chapter 2. 행동 데이터를 이해하는 방법 플로랑 뷔송, 『Behavioral Data Analysis with R and Python』, 시진, 한빛미디어-OREILLY(2023), p49-69. Learned 인간 행동의 기본 모델 행동 과학적 사고방식: 자신이 무엇을 하려는지를 보다 정확하게 생각하도록 하는 장점이 있음 개인 특성(Personal Characteristics) 연령, 성별, 가족관계와 같은 인구통계 변수(demographic variable) 인구통계 변수를 기여 요소(contributing factor)로 작용하면, 해당 변수가 기여하는 심리적이고 실용적인 개인 특성을 유추할 수 있음 ‘행동은 사람과 환경의 함수다’란 말이 있음 사회적 요소가 인구통계변수보다 중요도가 높은 경우가 존재 사회현상과 개인 특성의 상호작용은 ‘조.. 2023. 11. 25.
Chapter 1. 인과-행동 프레임워크 플로랑 뷔송, 『Behavioral Data Analysis with R and Python』, 시진, 한빛미디어-OREILLY(2023), p30-48. Learned 분석의 유형 기술 분석(descriptive analytics): 데이터에 대한 설명 제공 비즈니스 보고 (평균, 간단한 지표 등) e.g. 작년 이익은 얼마일까? 예측(prediction): 측정되지 않은 것을 알려줌 e.g. 다음 달에 구독을 취소하는 고객을 몇 명일까? 인과관계(causal analytics): 데이터의 인과관계를 제공 주로 RCT(Randomized Controlled Trial)를 활용 → A/B Test 교란(confounding) 현상을 파악하고 해결할 수 있는 장점이 있음 e.g. 광고를 하지 않으면, 다음.. 2023. 11. 24.
[KSSCI 2021] 인과추론의 데이터 과학 - Session 5 인과추론의 데이터과학. (2021, Sep 9). [Session 5-1] 준실험 연구사례 1: 모바일 커머스가 쇼핑 패턴에 미치는 영향 [Video]. YouTube. 인과추론의 데이터과학. (2021, Sep 12). [Session 5-2] 준실험 연구사례 2: 스마트 스피커가 컨텐츠 소비에 미치는 영향 [Video]. YouTube. Session 5-1 Intro Mobile searching 모바일에서 컴퓨터보다 구글 검색이 활발했음 Retail 관점: 매장에서도 80% 유저가 모바일로 검색을 했음 (OuterBox 2021) E-commerce 환경에서 제품별로 Sales distribution이 다를 수 있음 Sales distribution 정의: 제품이나 서비스의 판매량이나 매출액이 어.. 2023. 10. 16.
[KSSCI 2021] 인과추론의 데이터 과학 - Session 18 인과추론의 데이터과학. (2021, Nov 29). [Session 18-1] 가상의 통제집단 (Synthetic Control) [Video]. YouTube. 인과추론의 데이터과학. (2021, Nov 29). [Session 18-2] 가상의 통제집단 분석 사례 [Video]. YouTube. 인과추론의 데이터과학. (2021, Dec 6). [Session 18-3] 데이터 기반의 인과관계 발견 (Causal Discovery) [Video]. YouTube. Session 18-1 synthetic control: 여러 요인들을 결합해서 만든 합성의 control group counterfactual을 모방하기 위해 만든 것 Causal effect ITE(individual treatment .. 2023. 10. 15.
Part 5. Advanced Topics for Analyzing Experiments 론 코하비, 다이앤 탕, 야 쉬, 『A/B 테스트 신뢰할 수 있는 온라인 종합 대조 실험』, 이기홍, 김기영, 에이콘출판사-MANNING(2022), p260-341. 17. The Statistics behind Online Controlled Experiments Two-Sample t-Test \(H_0: mean(Y^t) = mean(Y^c)\) \(H_A: mean(Y^t) \ne mean(Y^c)\) t-statistic, \(T\) \(T = \displaystyle{\Delta\over \sqrt{var(\Delta)}}\) \(\Delta\): unbiased estimator difference between the Treatment average and the Control avera.. 2023. 10. 12.
[KSSCI 2021] 인과추론의 데이터 과학 - Session 17 인과추론의 데이터과학. (2021, Nov 25). [Session 17] 인과추론을 위한 데이터셋 구성 (코로나19 사례) [Video]. YouTube. Session 17 Kaggle DS4C datasets 2015 메르스 이후, 감염병 환자들의 정보를 신속히 공개하고 있음 Problems Decentralized publication: 형식이 변경될 때마다, 정기적으로 코드 업데이트 or 수동 입력 Absence of a unified formatting: 시도/시군구 합쳐있던지, 이미지로 양식을 올리던지 등등.. Data embedded in natural language: 문자열 구분이 어려웠음, 위치 정보 추출 및 정량화도 어려웠음 Scheme 잘 알려진 Johs hopkins 데이터 대비.. 2023. 10. 12.
[KSSCI 2021] 인과추론의 데이터 과학 - Session 12 인과추론의 데이터과학. (2021, Oct 21). [Session 12] 머신러닝을 통한 비정형 데이터 분석 (마케팅 연구사례) [Video]. YouTube. Session 12 기존 review 영향 연구의 한계점 customers read rich review content, instead of only considering aggregated volume, rating, and variance metrics → 모델에 어떻게 address해야할까 review content are significantly different across product categories ex. Watch: “Accurate” and “Waterproof” → 카테고리별 다른 단어를 어떻게 반영할까 Large-Sca.. 2023. 10. 11.
반응형