Programming/python(68)
-
spaCy 사용하기 - Training Models
spaCy의 훈련 로직은 대충 아래의 그림과 같다. training data는 text와 label로 구성이 되어져 있고, Model에서는 해당 text에 대해 label을 예측한다. 정답과 비교해서 차이만큼 gradient를 적용하고 이런식으로 반복함으로써 모델을 update하는 구조이다. spaCy에서는 GoldParse라는 class를 지원하는데 이걸 이용해서 모델을 학습할 수도 있다. entity 학습의 경우 BILUO scheme를 따른다. 또한 학습 성능을 향상시키기 위해 dropout을 적용할 수도 있다. 아래는 간단하게 모델을 업데이트 하는 코드를 설명하고 있다. english 타입의 빈 모델을 만들고, training data를 적당히 섞어 준 다음에 data를 1개씩 가져와서 모델을 업..
2018.04.24 -
spaCy 사용하기 - Vectors & Similarity
spaCy에서는 vector similarity 기능도 제공을 해 주고 있다. 또한 아래와 같이 vector를 가지고 있는지, norm 값(여기선 L2 norm), out of vocabulary 인지 등도 확인해 볼 수 있다. 문서간의 유사도도 확인해 볼 수가 있다. 홈페이지에서는 주변 단어와의 연결 관계 등을 고려해서 철자가 틀려도 비슷한 유사도를 나타낸다고 쓰여져 있는데, 결과 값이 별로 좋지 못한 관계로 이 부분은 그냥 스킵.. 자신이 직접 단어 벡터를 추가할 수도 있다. (이게 의미가 있나...) glove vector를 추가할 수도 있다. 그 밖의 fastText vector와 같은 다른 벡터들도 추가할 수가 있다. 핵심은 ' '으로 구분하고 첫번째 요소는 단어 2번째는 vector 값의 형태..
2018.04.23 -
spaCy 사용하기 - multi-processing 과 serialization
spaCy는 아래와 같이 nlp.pipe를 이용해서 병렬 처리가 가능하다. for doc in nlp.pipe(texts, batch_size=10000, n_threads=3):pass 아래의 코드는 Joblib와 spaCy를 이용해서 multi process를 구현한 코드이다. 자세히는 잘 모르겠다. -_- 또한 spaCy에서는 model을 저장 혹은 불러올 수가 있다. # 모델 저장 text = open('customer_feedback_627.txt', 'r').read()doc = nlp(text)doc.to_disk('/customer_feedback_627.bin') # 모델 load from spacy.tokens import Docfrom spacy.vocab import Vocab do..
2018.04.22 -
spaCy 사용하기 -Processing Pipelines
우리가 spaCy를 사용하기 위해 nlp 객체에 text 파라미터를 입력하면 결과적으로 아래와 같은 pipeline이 실행 된다. 아래와 같이 model을 호출하면, spaCy에서는 처음에 model의 meta.json을 읽는다. meta.json에는 model name과 language, description pipeline이 json 포멧으로 나타나 있다. nlp = spacy.load('en') {"name": "model_name","lang": "en","description": "model description", "pipeline": ["tagger", "parser"]} spaCy에서는 model.json에 나타난 pipeline을 읽고 해당 pipeline을 처리한 후 결과 Doc 객체를..
2018.04.21 -
spaCy 사용하기 - Rule based Matching
spaCy에서는 자신이 직접 pattern을 등록시킬 수가 있다. 아래의 조건을 가지는 문자열 패턴을 찾는다고 가정해보자. 1. 소문자가 hello와 매칭되는 경우 2. 쉼표나 콜론 등의 구분자가 존재하는 경우 3. 소문자가 world와 매칭되는 경우 아래는 위의 조건을 코드로 나타낸 것이다. 아래와 같이 두 개 이상의 패턴을 등록할 수도 있다. wildcard token pattern도 등록할 수가 있다. 가령 User name: {username} 이런 형태의 패턴을 등록하고 싶을 경우 아래와 같이 username 항목에 빈 중괄호를 넣어 주게 되면 wildcard 처럼 동작하게 된다. ['ORTH': 'User'}, {'ORTH': 'name'}, {'ORTH': ':'}, {}] 대규모의 용어를 ..
2018.04.20 -
spaCy 사용하기 - tokenization
spaCy에서는 아래와 같은 방식으로 tokenization이 발생한다. 우선 whitespace 기준으로 raw text를 분리하고, 왼쪽에서 오른쪽 순서로 tokenization을 진행한다. 각각의 token은 아래의 주의사항을 거치게 된다. 1. don't 같은 경우엔 whitespace가 없지만 do, n't로 토큰화 해야 하며, U.K 같은 경우에는 하나의 토큰으로 인식해야 한다. 2. prefix, suffix, infix를 분리할 수 있는지 여부.. 아래의 그림 형태라고 생각하면 될 듯 하다. 각각의 언어마다 tokenization을 할 때 주의해야 할 특별한 규칙들이 있을 수가 있으며 spaCy에서는 이러한 규칙들을 추가할 수가 있다. 하다보니 궁금한 사항이 생겼는데.. 규칙 지우는건 어떻..
2018.04.19