본문 바로가기
NLP

Chapter 3. 웹사이트 스크래핑 및 데이터 추출

by Night Fury 2023. 3. 26.
젠스 알브레히트, 시다르트 라마찬드란, 크리스티안 윙클러, 『파이썬 라이브러리를 활용한 텍스트 분석 Blueprints for Text Analytics Using Python』, 심상진, 한빛미디어-OREILLY(2022), p97-134.

 

Learned

  • robots.txt
    • 검색엔진 크롤러가 웹사이트에서 접근해야 하지 말아야 할 곳은 어디인지, 사이트맵 (sitemap.xml) 은 어디에 있는지와 같은 중요한 정보를 담고 있는 텍스트 파일
    • 크롤러가 웹사이트에 접속하여 정보 수집을 하며 보내는 요청으로 인해 사이트 과부하되는 것을 방지하기 위해 사용됨
  • feedparser: RSS 형식을 원하는 형식으로 parsing하는 tool
    • RSS(Rich Site Summary, Really Simple Syndication):
      • 어떤 사이트에 새로운 콘텐츠가 올라왔을 때 해당 사이트에 방문하지 않고, RSS서비스를 통해 리더 한 곳에서 그 콘텐츠를 이용하기 위한 방법
      • 여러 언론사 사이트를 모두 방문할 필요 없이 다양한 기사를 네이버뉴스 한 곳에서 볼 수 있는 것과 같음
    • 아톰(Atom) 피드
  • 전체 웹사이트 크롤링 가이드
    • sitemap.xml을 찾자 (힌트는 robots.txt에 있을 수 있음)
    • sitemap.xml을 찾을 수 없지만 콘텐츠를 주기적으로 다운로드 할 계획이라면 RSS를 활용
    • 가능한 URL에 대한 크롤링은 피하는 것이 좋음
      • 대부분 제어 불가능
      • 시간이 오래 걸림
      • 불완전한 결과를 초래할 수 있음

Reference

반응형

댓글