[PYSPARK] linear regression
이번 시간에는 pyspark를 이용하여 linear regression을 배워볼 것이며 million song dataset이라는 데이터를 사용하여 회귀분석을 할 것이다. 우선 가장 먼저 해야할 작업이 당연 spark context를 만드는 작업이다. from pyspark import SparkContextsc = SparkContext(); context 생성 후에 millionsong.txt 파일을 읽어온다. 이 때 분산 파티션은 2로 설정해준다. rawData = sc.textFile("millionsong.txt", 2) 읽어들인 rawData를 살펴보면 아래와 같음을 확인할 수가 있다. 이제 우리는 LabeledPoint라는 객체를 사용할 것이다. 이 LabeledPoint는 pyspark에서..
2016.04.05