스테판 젠슨, 『퀀트 투자를 위한 머신러닝·딥러닝 알고리듬 트레이딩 2/e』, 이기홍, 홍창수, 에이콘출판사(2022), p127-158.
✅ 대체 데이터 혁명
- 5V (Volume, Velocity, Variety, Veracity, Value)
- 매크로, 회사별 데이터 예시
- 온라인 가격 데이터: 인플레이션 측정
- 매장 방문 횟수, 구매 횟수: 경제 활동의 실시간 추정
- 인공위성 이미지: 수확량, 광산, 석유 굴착장에서의 활동 포착
- 머신러닝 지표
- Momentum: 시장 가격 변동, 산업 심리, 경제 팩터에 대한 자산 노출
- Value: 재무제표 + 경제 및 산업별 정형/비정형 데이터 분석
- Quality: 고객 평가, 직원 리뷰, 앱 트래픽 등으로 시장 점유율 및 기초 수익 팩터로 이익 식별
- Sentiment: 뉴스 및 SNS 콘텐츠의 감성 탐지
✅ 대체 데이터 원천
- 개인: SNS, 상품 리뷰, 검색 엔진
- SNS: twitter, facebook, linkedin
- 전자상거래: amazon
- 검색 엔진: google, bing
- 비즈니스: 상업 거래 (ex. 신용카드), 중개 활동
- 결제 카드 거래 데이터, POS 데이터
- 거래 흐름 및 시장 미시 구조 데이터
- 신용 평가 회사, 회사 지급금
- 센서: 위성사진, 보안 카메라로 사람들의 움직임 패턴 포착
✅ 평가 기준
- 대체 데이터의 목표: 수익을 창출하는 독립적인 트레이딩 신호를 탐색하는 것
- 높은 sharp ratio를 유지하면 사용 가능
- 과거 데이터에 과대적합될 가능성을 염두
- 데이터 세트에 초점을 맞추는 것이 신호 내용의 반감기를 연장하기 위한 효과적인 전략
- 신호 내용 품질: 자산군, 투자 스타일, 전통적인 리스크 프리미엄과의 관계, 알파 내용과 관련하여 평가 가능
- 자산군
- 대부분의 대체 데이터는 주식과 원자재에 밀접하게 관련됨
- 부동산: zillow가 2006년에 가격 추정을 함
- 기업 신용: 기업 지급을 모니터링
- 고정 수집, 이자율 프로젝트: 제품 판매 및 가격 정보
- 투자 스타일
- 롱/숏 전략 트레이더: 특정 섹터, 주식에 초점
- 매크로 테마형 투자자: 소비자의 신용, 신흥 시장에서의 활동, 원자재 동향
- 고빈도 트레이더: 뉴스를 포착하는 신호
- 리스크 프리미엄
- 신용카드 지급, SNS 감성 데이터는 리스크 프리미엄(모멘텀, 변동성)과 5% 미만의 낮은 상관성을 갖는 신호를 생성
- 알파
- 백테스트: 알파의 양을 추정
- 데이터 세트는 알파 내용을 평가하는 것 이외에 신호가 증분인지, 직교인지 판단
- 자산군
- 데이터 품질: 예측 신호의 신뢰성에 영향을 미침
- 법적/평판 리스크
- 중요 비공개 정보, 개인 식별 정보
- 법률 및 규정 준수 요구 사항을 철저히 검토
- 독점력
- 이의 가용성과 처리 용이성은 예측 신호가 포함될 가능성과 반비례 관계
- 데이터를 처리하기 어려울수록 독점력 있는 데이터일수록 신호 포함 가능성이 높아짐
- 표준 재무 비율 공개 데이터는 알파가 포함될 가능성이 거의 없음 (but 리스크 팩터의 포트폴리오를 다각화)
- 투자 기간
- 데이터 빈도
- 데이터 신뢰성
- 법적/평판 리스크
- 다양한 기술적 측면
- 레이턴시: 데이터 수집 방법, 후속 처리와 전송, 규제 등으로 발생 가능
- 데이터 형식
반응형
'Quant' 카테고리의 다른 글
Chapter 4. 알파 팩터 리서치 (0) | 2023.06.18 |
---|---|
Chapter 2. 시장 데이터와 기본 데이터: 소스와 기법 (0) | 2023.06.11 |
Chapter 1. 트레이딩용 머신러닝: 아이디어에서 주문 집행까지 (0) | 2023.06.04 |
댓글