Doc2Vec
doc2vec 방식이 생각보다 정말 간단해서 word2vec open source에 doc2vec 기능을 넣어보기로 했다. 우선 간략하게 doc2vec 방식을 설명하자면 아래의 그림과 같다. (DM 방식과 DBOW 방식이 있는데 일단 DM만 구현하기로 함..) DM은 distributed memory 방식이라고 해서 word 들을 학습할 때 각각의 학습 단계를 vector에 기억시키고 학습된 최종 vector를 해당 document의 vector라고 정의하는 방식이다. 구현은 정말 간단하다. 기존 존재하던 word2vec 코드에 paragraph 용 벡터 메모리를 하나 추가로 할당해준다.for(i = 0; i < (unsigned int)doc_count; i++){ for(j = 0; j < (unsi..
2017.05.23