이제 본격적으로 미세먼지 크롤러를 제작해보도록 하자. 다음은 전체 코드이다. from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Chrome('C:\Program Files (x86)\Microsoft Visual Studio\Shared\Python37_64\python\crawling\selenium\chromedriver') driver.implicitly_wait(3) driver.get('http://openAPI.seoul.go.kr:8088/(인증키)/xml/RealtimeCityAir/1/25/') raw = driver.page_source html = BeautifulSoup(raw, 'html...
오늘은 Selenium을 사용해서 미세먼지 데이터 크롤러를 만들어보자. OpenAPI 사용하기 우선 미세먼지 데이터를 크롤링해오기 위해서는 당연하게도 미세먼지 현황에 대한 데이터가 필요할 것이고 이러한 데이터는 OpenAPI(누구나 사용할 수 있는 API)를 통해 얻을 수 있다. 필자는 '서울 열린데이터광장'에서 제공하는 '서울시 권역별 실시간 대기환경 현황'이라는 공공데이터를 사용해 크롤러를 제작해보았다. data.seoul.go.kr/dataList/OA-2219/S/1/datasetView.do 서울시 권역별 실시간 대기환경 현황 대기 환경지수, 미세먼지, 오존, 이산화질소, 일산화탄소, 아황산가스 등의 권역별 실시간 대기환경정보를 제공합니다. data.seoul.go.kr 이러한 OpenAPI의 ..
오늘은 파이썬을 사용하여 네이버 e북에서 Top 1~100를 차지하고 있는 책들의 정보를 크롤링한 뒤 카테고리를 카운팅해서 어떤 종류의 책이 인기가 많은지에 대해 살펴보았다. 전체 코드는 다음과 같다. import requests from bs4 import BeautifulSoup dic = {} for page in range(1, 6): print("page ", page) print("") raw = requests.get("https://series.naver.com/ebook/top100List.nhn?page=" + str(page)) html = BeautifulSoup(raw.text, "html.parser") book = html.select("div#content li") for b..