2015. 2. 19. 11:47ㆍProgramming/Android
파이썬에 BeautifulSoup가 있고, C#에 HtmlAgilityPack이 있다면, 자바에는 Jsoup이 html 파싱에 가장 편할 것 같다.
(이름도 beautifulSoup와 비슷하게 jsoup임)
사용 방법부터 보자면, 우선 jsoup 라이브러리부터 가져와야 한다.
해당 홈페이지에서 다운 받거나, gradle을 이용해서 라이브러리를 추가하도록 한다.
dependencies{
compile 'org.jsoup:jsoup:1.7.3'
}
라이브러리 추가가 완료되었으면 이제 실제 어떻게 사용되는지를 확인해 보자.
웹 페이지의 GET 데이터 정보 가져오기
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.parser.Parser;
import org.jsou.select.Elements;
public class Test{
public void getDataFromWeb(){
Document doc = Jsoup.connect("웹데이터를 가져올 주소").get();
......
}
웹 페이지의 POST 데이터 정보 가져오기
Document doc = Jsoup.connect("웹데이터를 가져올 주소").data("value1", "1").data("value2", "2").userAgent("Mozilla").cookie("auth", "token").timeout(3000).post();
웹 페이지의 XML 데이터 정보 가져오기
- XML 같은 경우에는 Jsoup 내부의 parser를 이용해야 한다.
Document doc = Jsoup.parse(new URL("웹데이터 주소").openStream(), "euc-kr", "웹데이터 주소");
Elements datas = doc.select("xml 노드");
for(i = 0; i < datas.size(); i++){
System.out.println(String.valueOf(datas.get(i).attr("xml 각 노드의 속성")));
}
파싱하기
# class 명이 test인 항목만 가져와라
Elements items = doc.select(".test");
# id 명이 test인 항목만 가져와라
Elements items = doc.select("#test");
# class 명이 test인 항목 안의 a 태그만 가져와라
Elements tags = doc.select(".test a");