spaCy 사용하기 - multi-processing 과 serialization

2018. 4. 22. 07:54Programming/python

spaCy는 아래와 같이 nlp.pipe를 이용해서 병렬 처리가 가능하다.


for doc in nlp.pipe(texts, batch_size=10000, n_threads=3):

pass


아래의 코드는 Joblib와 spaCy를 이용해서 multi process를 구현한 코드이다. 자세히는 잘 모르겠다. -_-



또한 spaCy에서는 model을 저장 혹은 불러올 수가 있다.


# 모델 저장


text = open('customer_feedback_627.txt', 'r').read()

doc = nlp(text)

doc.to_disk('/customer_feedback_627.bin')


# 모델 load


from spacy.tokens import Doc

from spacy.vocab import Vocab


doc = Doc(Vocab()).from_disk('/customer_feedback_627.bin')