본문 바로가기
반응형

Workflow6

『Apache Airflow 기반의 데이터 파이프라인』 Chapter 5. 태스크 간 의존성 정의하기 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p87-115. 의존성 유형선형 체인(linear chain) 유형: 연속적으로 실행되는 작업오른쪽 비트 시프트 연산자(>>)를 사용하여 태스크 간의 의존성을 만들 수 있음여러 태스크에서 순서가 명확하게 정의되는 장점이 있음join_datasets >> train_model >> deploy_model 팬인/팬아웃(Fan-in/Fan-out) 유형: 하나의 태스크가 여러 다운스트림 태스크에 연결되거나 그 반대의 동작을 수행하는 유형Fan-in: 다대일 구조Fan-out: 일대다 구조# Fan-instart = DummyOperator(task_id="start".. 2024. 12. 10.
『Apache Airflow 기반의 데이터 파이프라인』 Chapter 4. Airflow 콘텍스트를 사용하여 태스크 템플릿 작업하기 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p62-86. 데이터 검사파이프라인을 구축하기 전에 접근 방식에 대한 기술적 계획을 세우는 것이 중요구축 목적 확인데이터 빈도, 형식, 소스 유형 검사데이터 증분 방식으로 적재하는 방법과 데이터를 다루는 방법 이해 필요 템플릿 작업예시: 위키피디아 페이지 뷰 수 >> zip 다운로드 >> zip 압축 풀기 >> 한 시간 동안 페이지 뷰 수 추출런타임 시 삽입될 변수 ➡️ 이중 괄호 사용 {{ }} (Jinja 템플릿 문자열)Jinja: 런타임 시에 템플릿 문자열의 변수와 and 및 or 표현식을 대체하는 템플릿 엔진execution_date: task conte.. 2024. 12. 7.
Mac docker-compose installation mac: https://docs.docker.com/desktop/setup/install/mac-install/all: https://docs.docker.com/compose/install/click download button and install dmg filecommand "docker-compose" in CLI 2024. 11. 26.
『Apache Airflow 기반의 데이터 파이프라인』 Chapter 3. Airflow의 스케줄링 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p41-61.  Scheduling설정한 시작 날짜를 기준으로 첫 번째 DAG의 실행을 스케줄링 (시작 날짜 + 간격)Airflow는 종료일이 없으면 DAG를 매일 스케줄 된 대로 영원히 실행end_date에 설정하면 실행 중지 가능cronexample매주 월, 화, 금요일 자정 실행 → 0 0 * * MON, WED, FRI매일 자정 및 오후 12시에 실행 → 0 0,12 * * *특정 빈도마다 스케줄을 정의할 수 없는 제약이 있음 (e.g. 3일에 1번 실행)datetime.timedelta(days=3)을 schedule_interval에 기입하는 것으로 .. 2024. 1. 21.
『Apache Airflow 기반의 데이터 파이프라인』 Chapter 2. Airflow DAG의 구조 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p20-40. DAG모든 워크플로의 시작점태스크를 나누는 방법에는 정답이나 오답이 없음워크플로 내의 모든 태스크는 DAG 개체를 참조함parameterdag_id: Airflow UI에 표시되는 DAG 이름start_date: 워크플로가 처음 실행되는 시간schedule_interval: DAG 실행 간격의존성(dependency)각 오퍼레이터는 서로 독립적으로 실행할 수 있음 (순서 정의 필요)화살표 >>(rshift; binary right shift operator)는 태스크 실행 순서를 설정 → 의존성 정의 Task vs Operatoroperator: .. 2024. 1. 15.
『Apache Airflow 기반의 데이터 파이프라인』 Chapter 1. Apache Airflow 살펴보기 바스 하렌슬락, 율리안 더라위터르, 『Apache Airflow 기반의 데이터 파이프라인』, 김정민, 문선홍, MANNING-제이펍(2022), p3-19.  Airflow?데이터 파이프라인을 처리하기 위한 배치 태스크다양한 분산 시스템에서 발생하는 작업을 조율데이터 처리를 위한 다양한 구성 요소들을 조정Open source! Airflow의 주요 기능유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축 가능파이프라인, 워크플로우 태스크를 DAG로 정의 가능DAG (Directed Acyclic Graph): 방향성 비순환 그래프반복이나 순환을 허용하지 않음끝점(directed edge)을 포함DAG를 Python 코드로 정의하면, 많은 유연성을 제공할 수 있음쉽게 확장 가능하고 다양한 시스템.. 2024. 1. 10.
반응형