본문 바로가기

분류 전체보기45

Chapter 4. 통계 및 머신러닝을 위한 텍스트 데이터 준비 젠스 알브레히트, 시다르트 라마찬드란, 크리스티안 윙클러, 『파이썬 라이브러리를 활용한 텍스트 분석 Blueprints for Text Analytics Using Python』, 심상진, 한빛미디어-OREILLY(2022), p135-175. Learned 텍스트 데이터의 일반적인 전처리 파이프라인 노이즈 처리 w. regex +, *와 같은 반복자는 유의해서 사용 (텍스트의 많은 부분을 제거할 수 있음) 문자 정규화 ex. 악센트와 같은 문자를 다른 토큰으로 인식 -> textacy 라이브러리 활용 가능 textacy : spacy와 함께 작동하도록 구축된 라이브러리 언어 부분은 spacy에 맡기고 사전 및 사후 처리에 중점을 둠 normalize_hyphenated_words: 줄 바꿈으로 구분된 .. 2023. 3. 26.
Chapter 3. 웹사이트 스크래핑 및 데이터 추출 젠스 알브레히트, 시다르트 라마찬드란, 크리스티안 윙클러, 『파이썬 라이브러리를 활용한 텍스트 분석 Blueprints for Text Analytics Using Python』, 심상진, 한빛미디어-OREILLY(2022), p97-134. Learned robots.txt 검색엔진 크롤러가 웹사이트에서 접근해야 하지 말아야 할 곳은 어디인지, 사이트맵 (sitemap.xml) 은 어디에 있는지와 같은 중요한 정보를 담고 있는 텍스트 파일 크롤러가 웹사이트에 접속하여 정보 수집을 하며 보내는 요청으로 인해 사이트 과부하되는 것을 방지하기 위해 사용됨 feedparser: RSS 형식을 원하는 형식으로 parsing하는 tool RSS(Rich Site Summary, Really Simple Syndi.. 2023. 3. 26.
Chapter 2. API로 추출하는 텍스트 속 통찰 젠스 알브레히트, 시다르트 라마찬드란, 크리스티안 윙클러, 『파이썬 라이브러리를 활용한 텍스트 분석 Blueprints for Text Analytics Using Python』, 심상진, 한빛미디어-OREILLY(2022), p69-96. Learned API 통신할 수 있도록 해주는 인터페이스 사용자가 소프트웨어 응용 프로그림애나 구성 요소, 서비스 등이 어떻게 구현되는지 몰라도 됨 사용할 수 있는 요청의 종류, 사용되는 데이터 형식, 예상 응답을 포함하는 일련의 정의 및 프로토콜을 제공 웹사이트 스크랩보다 선호되는 접근 방식 호출 가능한 함수로 설계됨 사용하기 쉽고 자동화할 수 있음 데이터가 자주 변경되거나 프로젝트에 최신 정보를 반영해야 할 때 권장 SOAP vs REST vs GraphQL SO.. 2023. 3. 26.
Chapter 1. 텍스트 데이터에서 찾는 통찰 젠스 알브레히트, 시다르트 라마찬드란, 크리스티안 윙클러, 『파이썬 라이브러리를 활용한 텍스트 분석 Blueprints for Text Analytics Using Python』, 심상진, 한빛미디어-OREILLY(2022), p29-68. EDA 탐색적 데이터 분석 (Exploratory Data Analysis) 수집 수준에서 데이터를 체계적으로 조사하는 과정 (요약, 통계, 결측치 확인 등) NLP에서는 말뭉치(corpus)의 통계적 탐색을 진행 메타 데이터: 범주, 작성자, 날짜/시간 콘텐츠: 단어, 구, 개체 -> 상대적 빈도 활용 단어: 문장 안에서 띄어쓰기가 되어 있는 각각의 단위 ex. 나는 / 도서관에서 / 친구를 / 만났다 구: 2개 이상의 단어가 모여 하나의 단어처럼 쓰이는 덩어리, .. 2023. 3. 26.
Chapter 1. 시계열의 개요와 역사 에일린 닐슨, 『실전 시계열 분석 Practical Time Series Analysis, 박찬성, 한빛미디어-OREILLY(2022), p25-41. Learned Definition 시계열 분석은 시간 순서대로 정렬된 데이터에서 의미 있는 요약과 통계 정보를 추출하기 위한 노력 History 시계열의 초기 혁명은 의사가 아닌 모자 장수 덕분에 발생했음 도시의 모자 장수들의 기록 보관과 추세를 파악하는 기술이 뛰어났음 17세기 런던 바느질 도구 판매상이었던 "존 그란트"가 시계열의 혁신을 이끌었음 런던 교외에 보관된 사망 기록에 대한 연구를 시작 ➡️ 인구통계학을 만듦 1662년에 『Natural and Political Observations Made upon the Bills of Mortality.. 2023. 3. 20.
반응형