본문 바로가기

text to CNN2

TextToCNN으로 분류하기 Text를 마치 하나의 image로 인식해서 CNN 모델에 태우는 기법의 분류가 높은 성능을 보인다고 해서 나도 한번 테스트를 해봤다.우선 이론 및 모델은 김윤 교수님의 논문인 Convolutional Neural Networks for Sentence Classification을 차용했다. 모델에 대해 간략히 설명하자면, 어떤 하나의 문장이 들어오면 해당 문장을 단어로 나누고 (위의 그림의 경우에서는 wait, for, the, video, and가 됨) 각 단어에 대해 embedding vector를 적용 시킨다. 가령 단어의 개수가 5개고 embedding vector가 128차원이라면 매트릭스는 5 x 128의 행렬이 된다. 이렇게 구성된 행렬에 convolution을 적용시킨다. 논문에서는 co.. 2019. 1. 28.
Char based Text to CNN 한글 적용하기 Text의 각 Character들을 (한글로 치면 하나의 음절) 하나의 특징데이터로 삼고 CNN을 이용해서 분류작업을 해보기로 했다. 기본 Text to CNN에 대한 간략한 설명. http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/ 대략적으로 설명하자면 각각의 text내의 word 들을 vector로 변환한 후 해당 vector 값들을 나열해서 2차원 이미지 배열 처럼 만든다. 예를들어 I like coffee 라는 text가 있다면 I, like, coffee 이 단어들을 각각 3차원 벡터로 변환을 하고 ([1,0,0], [0,1,0], [0,0,1]) 변환된 벡터를 나열하면 3 * 3의 행렬이 생성된다... 2018. 4. 10.