Ju Factory

add header(1)

[Python] 크롤링 시 주의사항
아래와 같이 코드를 작성하여 해당 주소에 대한 crawling을 시도하였는데 계속 response timeout이 발생하였다. import urllib2 try: response = urllib2.urlopen(url)except urllib2.HTTPError, e: print e.reason.args[1]except urllib2.URLError, e: print e.reason.args[1] '어 안될리가 없는데??'하도 이상해서 브라우저 창에 직접 쳐봤더니 데이터를 제대로 가져온다. '아.. header 검사하나보다.'신속하게 아래와 같이 user-agent header 추가. import urllib2 try: req = urllib2.Request(url) req.add_header('User..
2015.02.25

1

티스토리툴바