[SPARK] word count (pyspark)
이번에는 spark를 이용하여 word count를 해보려고 한다. 참고 reference는 아래와 같다. http://nbviewer.ipython.org/github/spark-mooc/mooc-setup/blob/master/lab1_word_count_student.ipynb#-(4f)-Count-the-words- 기본적인 개요는 아래와 같다. 1. base RDD와 pair RDD 만들기 2. pair RDD counting 하기 3. 단어 개수 세기와 평균 값 구하기. 4. 파일을 읽어서 word count 하기 1. base RDD와 pair RDD 만들기 아래와 같이 base RDD를 만들어 본다. from pyspark import SparkContext sc = SparkContext..
2015.11.25