본문 바로가기
Language/SQL

『SQL로 시작하는 데이터 분석』 Chapter 2. 데이터 준비

by Night Fury 2024. 11. 5.
반응형
캐시 타니무라, 『SQL로 시작하는 데이터 분석』, 박상근, 한빛미디어-OREILLY(2022), p41-93.

 

  • 정성 데이터: 주로 텍스트 형태로 적힌 의견, 느낌 서술과 같이 명확한 수치로 측정할 수 없는 데이터

 

  • 퍼스트 파티 데이터: 기관에서 직접 수집한 데이터
  • 세컨드 파티 데이터: 특정 기관에 서비스를 제공하는 업체에서 수집하는 데이터
  • 서드 파티 데이터: 업체에 금액을 지불하고 구매하는 데이터 or 공개 데이터 (e.g. 정부에서 무료로 공개한 데이터)

 

  • 데이터 베이스를 죽이지 않기 위해, LIMIT샘플링을 사용하여 쿼리로 반환받을 레코드 수를 제한하는 것이 좋음

 

  • N분위수: ntile (window function) ➡️ 구간을 나눌 때 사용
  • 백분위수 값: percent_rank (window function)
반응형

댓글