[Pandas] 자료구조

2015. 3. 15. 15:05Programming/python

Pandas란?

데이터 분석, 데이터 처리 등을 쉽게 하기 위해 만들어진 python package이다.

보다 안정적으로 대용량 데이터들을 쉽게 처리할 수 있다고도 알려져 있다.


Series

Series는 value와 index의 형태를 지니는 Pandas의 자료 구조이다.

아래 그림과 같이 [1,3,5,7]의 값을 가지는 리스트를 Series로 생성하게 되면 (1,3,5,7)이라는 value와 (0,1,2,3)이라는 index가

생성되어 Series라는 형태의 자료 구조를 만든다.



index는 사용자가 직접 생성할 수 있으며, value에 대한 접근은 index를 사용하여 접근한다.

Series의 색인은 사용자가 변경하고 싶을 경우 obj.index 값을 변경함으로써 언제든지 변경할 수 있다. 



또한 dictionary 형을 Series 형태로 바꾸는 것도 가능하다.





DataFrame

DataFrame은 여러 개의 Dictionary를 처리하는데 있어 Series보다 보기 편한 형태로 제공해 줄 수 있는 자료 구조라고 보면 

될 것 같다. 마치 엑셀의 표 모양을 생각하면 쉽다.



위의 그림은 dic라는 자료에 대해 각각 DataFrame과 Series로 그 형태를 나타내 본 것이다. DataFrame 형태가 데이터를 보는데 있어 일목요연하게 잘 나타내고 있다.

각 행의 column 명을 배열 index로 기입함으로써 DataFrame의 값을 가져올 수 있으며, 만약 해당 index로 값을 가져오고 싶다면

ix 함수를 이용하면 된다.



실행 도중 동적으로 새로운 column을 생성할 수가 있고, 또한 생성된 column을 지울 수도 있다.