본문 바로가기
Mathematics/Quant

『손에 잡히는 퀀트 투자 with 파이썬』 Chapter 5. 웹 크롤링을 이용한 데이터 수집

by Night Fury 2024. 10. 19.
반응형
GIL's LAB, 『손에 잡히는 퀀트 투자 with 파이썬』, 위키북스(2022), p215-267.

 

  • <tag attr = "value"> Text </tag>
    • tag: 태그명
    • attr: 속성명
    • value: 속성값
    • Text: 내용
  • <div class="line3"> 추출 ➡️ BeautifulSoup.find("div", attrs={"class": "line3"})

 

Selenium

  • Selenium Chrome driver
    • implicitly_wait(초): 웹 페이지가 열릴 때까지 대기
  • Element 탐색
    • selenium.webdriver.common.by.By
      • By.CLASS_NAME: class 속성 값 기준 검색
      • By.CSS_SELECTOR: 태그에 적용된 스타일 정보를 기준으로 검색
      • By.ID: id 속성 값 기준 검색
      • By.LINK_TEXT: 링크가 있는 텍스트와 완전히 일치하는지를 기준으로 검색
      • By.PARTIAL_LINK_TEXT: 링크가 있는 텍스트와 부분 일치하는지를 기준으로 검색
      • By.NAME: name 속성 값 기준 검색
      • By.TAG_NAME: 태그명 기준 검색
      • By.XPATH: 경로 기준 검색
    • e.g. driver.find_elements(By.LINK_TEXT, "경제")
반응형

댓글