본문 바로가기

Workflow3

Chapter 3. Apache DAG의 구조 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p40-61. Scheduling 설정한 시작 날짜를 기준으로 첫 번째 DAG의 실행을 스케줄링 시작 날짜 + 간격 Airflow는 종료일이 없으면 DAG를 매일 스케줄 된 대로 영원히 실행 end_date에 설정하면 실행 중지 가능 cron example 매주 월, 화, 금요일 자정 실행 → 0 0 * * MON, WED, FRI 매일 자정 및 오후 12시에 실행 → 0 0,12 * * * 특정 빈도마다 스케줄을 정의할 수 없는 제약이 있음 (e.g. 3일에 1번 실행) datetime.timedelta(days=3)을 schedule_interval에 기입하.. 2024. 1. 21.
Chapter 2. Apache DAG의 구조 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p20-40. DAG 모든 워크플로의 시작점 워크플로 내의 모든 태스크는 DAG 개체를 참조함 parameter dag_id: Airflow UI에 표시되는 DAG 이름 start_date: 워크플로가 처음 실행되는 시간 schedule_interval: DAG 실행 간격 의존성(dependency) 각 오퍼레이터는 서로 독립적으로 실행할 수 있음 (순서 정의 필요) 화살표 >>(rshift)는 태스크 실행 순서를 설정 → 의존성 정의 Task vs Operator operator: 단일 작업 수행 역할 BashOperator, PythonOperator, Si.. 2024. 1. 15.
Chapter 1. Apache Airflow 살펴보기 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p3-19. Airflow? 데이터 파이프라인을 처리하기 위한 배치 태스크 다양한 분산 시스템에서 발생하는 작업을 조율 데이터 처리를 위한 다양한 구성 요소들을 조정 Open source! Airflow의 주요 기능 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축 가능 파이프라인, 워크플로우 태스크를 DAG로 정의 가능 DAG (Directed Acyclic Graph): 방향성 비순환 그래프 반복이나 순환을 허용하지 않음 끝점(directed edge)을 포함 DAG를 Python 코드로 정의하면, 많은 유연성을 제공할 수 있음 쉽게 확장 가능.. 2024. 1. 10.
반응형