spaCy 사용하기 - Named Entities

2018. 4. 18. 20:45Programming/python

spaCy를 사용해서 다양한 형태의 entity들을 식별해 볼 수가 있다.



entity를 document 레벨이 아닌 token 레벨로도 접근 할 수가 있다.



위의 결과 값에서 B는 entity의 시작을 나타내고 O는 entitiy의 바깥, I는 entity 내부를 나타낸다.


entity 정의가 되어 있지 않을 때는 새롭게 등록해 줄 수도 있다.

(쓰다 보니 예제가.... -_-;; 따로 정치색이 있는 것은 아니고 아시는 분이 동명이인이라 놀리는 차원에서 쓴 예제예요.. 문제가 된다면 삭제하겠습니다..)



그런데 위와 같이 하면 기존의 entity가 사라지는 문제가 발생한다. 기존의 entity 정보가 손실되지 않게 하기 위해 아래와 같이 append를 시키자.



NER을 training 하고 model update도 할 수 있다고 하는데, 이건 뒤에 좀 더 자세히 나오니 그 때 살펴보기로...


마지막으로 NER 시각화를 아래와 같이 해보자.