본문 바로가기

Study/데이터 크롤링

(4)

HTML 분석 이라는 태그가 존재할 때, from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('http://pythonscraping.com/pages/warandpeace.html') bs = BeautifulSoup(html, 'html.parser') findAll 함수를 사용하면 태그에 들어있는 텍스트만 추출할 수 있다. nameList = bs.findAll('span', {'class': 'green'}) for name in nameList: print(name.get_text()) find() & findAll() tag 매개변수: 태그 이름인 문자열을 넘기거나, 파이썬 리스트를 넘김. attributes 매개변수..

Headless Chrome HeadLess Chrome은 브라우저를 띄우지 않고 크롤링을 할 수 있도록 크롬이 지원해주는 기술이다! 크롬 버전 59이상부터 사용이 가능하다. https://beomi.github.io/gb-crawling/posts/2017-09-28-HowToMakeWebCrawler-Headless-Chrome.html Headless 크롬으로 크롤링하기 · GitBook Headless라는 용어는 '창이 없는'과 같다고 이해하시면 됩니다. 여러분이 브라우저(크롬 등)을 이용해 인터넷을 브라우징 할 때 기본적으로 창이 뜨고 HTML파일을 불러오고, CSS파일을 불러와 어떤 beomi.github.io 기존의 크롤러에 간단히 옵션만 적용해주면 된다. from selenium import webdriver #Hea..

Selenium 기본 알기 https://www.selenium.dev/ Selenium Selenium automates browsers. That's it! www.selenium.dev Selenium은 동적 브라우저를 크롤링할 수 있도록 하는 기술이다. #드라이버 로드 테스트 from selenium import webdriver from selenium.webdriver.common.keys import Keys import time #드라이버 생성 및 경로 설정 chromedriver = '설치경로' driver = webdriver.Chrome(chromedriver) #크롤링할 사이트 driver.get("URL") drivr.quit() 이렇게 호출한 후 셀레니움을 통해 몇 가지 테스트를 진행할 수 있다. 예를 들..

파이썬 크롤링에 필요한 기본 개념들 크롤링을 위한 HTML 구조 HTML은 웹페이지 구조를 나타내기 위한 언어로 태그로 구성되어 있다. 태그는 시작태그와 종료태그로 만들어진다. 내용 속성명과 속성값이 있을 수 있다. 티스토리 HTML에는 많은 태그가 있지만, 이 중 크롤링에 자주 사용되는 태그는 다음과 같다. 태그명 역할 div 구역 나누기 a 링크 h1 제목 p 문단 ul, li 목록 태그는 부모태그와 자식태그가 있다. 여기서 div 태그는 a 태그의 부모태그이고, a 태그들은 div 태그의 자식 태그들이다. # 라이브러리 import requets, BeautifulSoup import requests from bs4 import BeautifulSoup #웹페이지 가져오기 res = requests.get('웹사이트 URL') #re..

이전 1 다음

티스토리툴바