본문 바로가기

크롤링

(2)
Crawling, English Linguistics 논문 초록 가져오기 학술제를 준비하며, Linguistics 관련 논문 Abstract 데이터가 필요했다. 좋은 사이트를 찾기 위해서 정말 많이 찾아보았지만, 아래의 사이트가 그나마 괜찮았다. 크롤링 사이트 lingbuzz - archive of linguistics articles URL 구조 및 설명 Base url : https://ling.auf.net/ 카테고리 및 페이지 url : https://ling.auf.net/lingbuzz/_listing?community=카테고리&start=시작번호 가져올 카테고리는 총 4개 → semantics, syntax, phonology, morphology 시작 번호 : 처음 페이지에는 논문 30개씩 존재 → 이후 부터는 100개씩 존재 base_url = base + "..
Selenium 웹은 크게 2가지로 나눌 수 있다. 웹의 종류 selenium은 가장 유명한 브라우저 자동화도구이다. 실제 웹브라우저를 켜는 과정을 거치기 때문에 selenium을 이용하면 동적 페이지에서도 데이터를 수집할 수 있다 브라우저를 직접 동작시킨다는 것은 JavaScript를 이용해 비동기적으로 혹은 뒤늦게 불러와지는 컨텐츠들을 가져올 수 있다는 것이다. 즉, ‘눈에 보이는’ 컨텐츠라면 모두 가져올 수 있다는 뜻이다. requests에서 사용했던 .text의 경우 브라우저에서 ‘소스보기’를 한 것과 같이 동작하여, JS등을 통해 동적으로 DOM이 변화한 이후의 HTML을 보여주지 않는다. 반면 Selenium은 실제 웹 브라우저가 동작하기 때문에 JS로 렌더링이 완료된 후의 DOM결과물에 접근이 가능하다. S..