파이썬으로 웹 크롤러 만들었을 때 사용했던 라이브러리 정리
◼︎ requests
import requests as rq
url = "http://smparkworld.com/blog/1"
res = rq.get(url) // GET request
res = rq.post(url) // POST request
print(res) // 응답 객체
print(res.status_code) // 응답코드
print(res.headers) // 헤더 정보
print(res.cookies) // 쿠키 정보
print(res.encoding) // 페이지 인코딩 확인
print(res.text) // 응답 데이터(html, json)를 문자열 형태로 출력
print(res.content) // 응답 데이터를 바이너리 형태로 출력하기
print(res.json()) // 응답 데이터를 인스턴스 형태로 가져오기
위에서 res.text를 사용할 때는 응답 데이터 형식이 html이냐 json이냐에 따라서 내부적으로 res.content를 호출해서 리턴하냐, res.json()를 호출해서 리턴하냐로 나뉜다.
◼︎ selenium
from selenium import webdriver // selenium 중 webdrvier 가져오기
dr = webdriver.Chrome('./chromedriver.exe’)
dr.get('https://www.naver.com/')
selenium을 설정하는 방법은 아래와 같다.
◼︎ BeautifulSoup w/ lxml
import requests as rq
from bs4 import BeautifulSoup
url='http://www.pythonscraping.com/pages/page1.html'
res=rq.get(url)
if res.status_code==200:
html = res.text
bs = BeautifulSoup(html,'html.parser') // 두 번째 인수로 'html.parser' 대신 'lxml'과 같이 다른 모듈을 사용할 수도 있음.
print(bs)
print(bs.prettify())
else:
print(res.status_code)
주요 사용 함수 정리
위의 함수를 사용하면 태그가 리턴되고 해당 태그 안에도 태그가 있으므로 .find().find() 이러한 형태로 접근 가능함.