spaCy 사용하기 - multi-processing 과 serialization
2018. 4. 22. 07:54ㆍProgramming/python
spaCy는 아래와 같이 nlp.pipe를 이용해서 병렬 처리가 가능하다.
for doc in nlp.pipe(texts, batch_size=10000, n_threads=3):
pass
아래의 코드는 Joblib와 spaCy를 이용해서 multi process를 구현한 코드이다. 자세히는 잘 모르겠다. -_-
또한 spaCy에서는 model을 저장 혹은 불러올 수가 있다.
# 모델 저장
text = open('customer_feedback_627.txt', 'r').read()
doc = nlp(text)
doc.to_disk('/customer_feedback_627.bin')
# 모델 load
from spacy.tokens import Doc
from spacy.vocab import Vocab
doc = Doc(Vocab()).from_disk('/customer_feedback_627.bin')