jsoup 사용하기

2015. 2. 19. 11:47Programming/Android

파이썬에 BeautifulSoup가 있고, C#에 HtmlAgilityPack이 있다면, 자바에는 Jsoup이 html 파싱에 가장 편할 것 같다.

(이름도 beautifulSoup와 비슷하게 jsoup임)


사용 방법부터 보자면, 우선 jsoup 라이브러리부터 가져와야 한다.

해당 홈페이지에서 다운 받거나, gradle을 이용해서 라이브러리를 추가하도록 한다.


dependencies{

     compile 'org.jsoup:jsoup:1.7.3'

}  


라이브러리 추가가 완료되었으면 이제 실제 어떻게 사용되는지를 확인해 보자.


웹 페이지의 GET 데이터 정보 가져오기


import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.parser.Parser;

import org.jsou.select.Elements;


public class Test{

    public void getDataFromWeb(){

        Document doc = Jsoup.connect("웹데이터를 가져올 주소").get();

        ......

    }


웹 페이지의 POST 데이터 정보 가져오기


Document doc = Jsoup.connect("웹데이터를 가져올 주소").data("value1", "1").data("value2", "2").userAgent("Mozilla").cookie("auth", "token").timeout(3000).post(); 


웹 페이지의 XML 데이터 정보 가져오기

- XML 같은 경우에는 Jsoup 내부의 parser를 이용해야 한다.


Document doc = Jsoup.parse(new URL("웹데이터 주소").openStream(), "euc-kr", "웹데이터 주소");

Elements datas = doc.select("xml 노드");

for(i = 0; i < datas.size(); i++){

    System.out.println(String.valueOf(datas.get(i).attr("xml 각 노드의 속성"))); 

}


파싱하기


# class 명이 test인 항목만 가져와라

Elements items = doc.select(".test");


# id 명이 test인 항목만 가져와라

Elements items = doc.select("#test");


# class 명이 test인 항목 안의 a 태그만 가져와라

Elements tags = doc.select(".test a");