Char based Text to CNN 한글 적용하기
Text의 각 Character들을 (한글로 치면 하나의 음절) 하나의 특징데이터로 삼고 CNN을 이용해서 분류작업을 해보기로 했다. 기본 Text to CNN에 대한 간략한 설명. http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/ 대략적으로 설명하자면 각각의 text내의 word 들을 vector로 변환한 후 해당 vector 값들을 나열해서 2차원 이미지 배열 처럼 만든다. 예를들어 I like coffee 라는 text가 있다면 I, like, coffee 이 단어들을 각각 3차원 벡터로 변환을 하고 ([1,0,0], [0,1,0], [0,0,1]) 변환된 벡터를 나열하면 3 * 3의 행렬이 생성된다...
2018. 4. 10.
[SCIKITLEARN] naive bayes를 이용해서 문서 분류 하기
Naive bayes를 이용해서 문서 분류를 해보자. Naive bayes는 bayes 정리의 일부분이다. 앞에 Naive라는 수식어가 붙은 이유는 몇 가지 Naive한 가정을 기반으로 정의된 이론이기 때문에 Naive bayes라고 불린다. 그렇기 때문에 우선 bayes 정리에 대해서 살펴보자.A라는 분류 항목을 가지는 p1(x,y) 이라는 확률 방정식과 B라는 분류 항목을 가지는 p2(x,y)라는 확률 방정식이 있다고 가정을 해보자. 아래와 같은 가정이 성립할 것이다.만약에 p1(x,y) > p2(x,y)이면, x, y는 A에 속한다.만약에 p1(x,y) < p2(x,y)이면, x, y는 B에 속한다.분류를 위해 우리는 p1과 p2의 확률을 계산할 수 있어야 하며, 이를 계산하기 위해서 조건부 확률을..
2017. 12. 18.