Chapter 3. 웹사이트 스크래핑 및 데이터 추출

젠스 알브레히트, 시다르트 라마찬드란, 크리스티안 윙클러, 『파이썬 라이브러리를 활용한 텍스트 분석 Blueprints for Text Analytics Using Python』, 심상진, 한빛미디어-OREILLY(2022), p97-134.

Learned

robots.txt
- 검색엔진 크롤러가 웹사이트에서 접근해야 하지 말아야 할 곳은 어디인지, 사이트맵 (sitemap.xml) 은 어디에 있는지와 같은 중요한 정보를 담고 있는 텍스트 파일
- 크롤러가 웹사이트에 접속하여 정보 수집을 하며 보내는 요청으로 인해 사이트 과부하되는 것을 방지하기 위해 사용됨
feedparser: RSS 형식을 원하는 형식으로 parsing하는 tool
- RSS(Rich Site Summary, Really Simple Syndication):
  - 어떤 사이트에 새로운 콘텐츠가 올라왔을 때 해당 사이트에 방문하지 않고, RSS서비스를 통해 리더 한 곳에서 그 콘텐츠를 이용하기 위한 방법
  - 여러 언론사 사이트를 모두 방문할 필요 없이 다양한 기사를 네이버뉴스 한 곳에서 볼 수 있는 것과 같음
- 아톰(Atom) 피드
  - RSS와 동일한 정보를 다른 형식으로 제공 (ex. https://oreil.ly/Jcdgi)
전체 웹사이트 크롤링 가이드
- sitemap.xml을 찾자 (힌트는 robots.txt에 있을 수 있음)
- sitemap.xml을 찾을 수 없지만 콘텐츠를 주기적으로 다운로드 할 계획이라면 RSS를 활용
- 가능한 URL에 대한 크롤링은 피하는 것이 좋음
  - 대부분 제어 불가능
  - 시간이 오래 걸림
  - 불완전한 결과를 초래할 수 있음

Chapter 6. 텍스트 분류 알고리즘 (0)	2023.03.26
Chapter 5. 특성 엔지니어링 및 구문 유사성 (0)	2023.03.26
Chapter 4. 통계 및 머신러닝을 위한 텍스트 데이터 준비 (0)	2023.03.26
Chapter 2. API로 추출하는 텍스트 속 통찰 (0)	2023.03.26
Chapter 1. 텍스트 데이터에서 찾는 통찰 (0)	2023.03.26