본문 바로가기

linear regression2

[TENSORFLOW] Linear regression TensorFlow를 이용해서 선형 회귀 분석을 해 볼 것이다. 우선 우리는 주어진 데이터에 대해서 가장 알맞는 input/output를 출력하는 함수 f를 찾아낼 것이다. f를 찾기 위해서 고려할 사항이 두 가지가 존재하는데 바로 variance와 bias이다. - variance는 주어진 training set에 대해서 찾아낸 함수 f가 얼마나 민감한가를 나타내는 척도이다. overfitting(입력 데이터에 대해서만 아주 정확하게 결과를 출력하는 경우) 인 경우에 대부분 variance가 높게 나타나는데, variance가 높은 경우 약간의 입력 데이터 변화만 생기더라도 오답을 출력하는 문제가 발생한다. 그래서 우리는 variance를 낮출 필요가 있다.- bias는 훈련 데이터에 대한 편견을 나타.. 2017. 4. 6.
[PYSPARK] linear regression 이번 시간에는 pyspark를 이용하여 linear regression을 배워볼 것이며 million song dataset이라는 데이터를 사용하여 회귀분석을 할 것이다. 우선 가장 먼저 해야할 작업이 당연 spark context를 만드는 작업이다. from pyspark import SparkContextsc = SparkContext(); context 생성 후에 millionsong.txt 파일을 읽어온다. 이 때 분산 파티션은 2로 설정해준다. rawData = sc.textFile("millionsong.txt", 2) 읽어들인 rawData를 살펴보면 아래와 같음을 확인할 수가 있다. 이제 우리는 LabeledPoint라는 객체를 사용할 것이다. 이 LabeledPoint는 pyspark에서.. 2016. 4. 5.