Programming/python(66)
-
[PYTHON] selenium으로 크롤링 하기
로그인 한 후 데이터를 긁어와야 하는 웹 페이지는 어떤 식으로 데이터를 긁어와야 할까??이것 저것 찾아보다가 selenium이란 패키지를 발견했다. selenium은 headless (브라우저를 띄우지 않고 브라우저처럼 행동하는 것) chrome을 이용해서 실제 사용자가 액션을 취한 것처럼 동작시키는 작업을 한다. 기본 작업 방법은 다음과 같다.1. chrome driver 설치2. crawling 관련 패키지 설치3. selenium으로 로그인 후 세션 찾기4. 세션을 python requests 세션에 넣은 후 api 호출하기. 1. 우선 selenium을 사용하기 위해서는 chrom driver를 설치해야 한다. 해당 환경은 mac이라서 brew를 이용해서 아래와 같이 설치했다. $> brew in..
2022.02.24 -
[PYTHON] multi process 구현하기
python을 이용해서 multi process를 구현해 보기로 한다.코드는 엄청 간단하다. from multiprocessing import Process def start_node(index): print(index) if __name__ == "__main__": num = 1 proc = Process(target=start_node, args=(num,)) proc.start() proc.join() 위의 예제 코드를 활용해서 기존 코드를 multi process로 전환하였지만 아래와 같은 문제가 발생했다.해당 프로세스를 종료시켰으나, fork시킨 process가 종료되지 않고 좀비 프로세스로 남아있는 문제였다. 이를 방지하기 위해 Process 생성 시 daemon..
2021.11.19 -
[PYTHON] gunicorn 메모리 leak 해결하기.
파이썬에서 가장 간편한 웹 서버로 flask를 주로 이용한다. flask를 이용하다가 조금 규모가 커지거나 로직이 필요한 작업이 생기면, 이때부터 async를 고려하게 되는데, 나 같은 경우에는 gnicorn을 사용함으로써 async 문제를 풀곤 했다. 그런데 gunicorn 사용 후 어느 순간부터 메모리가 차츰 차츰 올라가는 것을 발견했다. '어.. 이거 왜 안떨어지지??' 메모리가 아주 느리지만 조금씩 올라가고 있는 것을 확인해 볼수가 있다.엄청난 인고의 고통 속에 원인이 gunicorn이란 것을 밝혀냈다.또한 구글에서 "gunicorn memory leak" 으로 검색해보면 나같이 메모리 릭으로 고생하고 있는 수많은 블로그들을 찾아볼 수가 있다. 원인은 gunicorn에서 생성한 worker 노드들..
2021.10.06 -
[PYTHON] multi line으로 진행상황 나타내기
2016/11/19 - [Programming/python] - python에서 Progressbar 표현하기 python에서 Progressbar 표현하기Python script를 실행하는데 이게 돌고 있는건지.. 아니면 멈춘건지 의구심이 들때가 간혹 있다. 언제 끝나는지 궁금하기도 하고... 그래서 python으로 progressbar를 표현할 수 있는게 없나 구글에서 찾아봄. htt..yujuwon.tistory.com 위의 코드를 활용해서 multi line으로 화면에 진행상황을 출력하려고 했으나, 번번히 실패를 경험하게 된다.가령 stdout에 '/r', '/n'등을 입력하고 flush를 하게 되면 출력하려고 하는 문장이 1줄로만 나타나거나, newline이 동작하여 아래로 쭉 써지게 된다. 예..
2019.11.24 -
[PYTHON] spaCy 사용하기 - Training Models
spaCy의 훈련 로직은 대충 아래의 그림과 같다. training data는 text와 label로 구성이 되어져 있고, Model에서는 해당 text에 대해 label을 예측한다. 정답과 비교해서 차이만큼 gradient를 적용하고 이런식으로 반복함으로써 모델을 update하는 구조이다. spaCy에서는 GoldParse라는 class를 지원하는데 이걸 이용해서 모델을 학습할 수도 있다. entity 학습의 경우 BILUO scheme를 따른다. 또한 학습 성능을 향상시키기 위해 dropout을 적용할 수도 있다. 아래는 간단하게 모델을 업데이트 하는 코드를 설명하고 있다. english 타입의 빈 모델을 만들고, training data를 적당히 섞어 준 다음에 data를 1개씩 가져와서 모..
2018.04.24 -
[PYTHON] spaCy 사용하기 - Vectors & Similarity
spaCy에서는 vector similarity 기능도 제공을 해 주고 있다. 또한 아래와 같이 vector를 가지고 있는지, norm 값(여기선 L2 norm), out of vocabulary 인지 등도 확인해 볼 수 있다. 문서간의 유사도도 확인해 볼 수가 있다. 홈페이지에서는 주변 단어와의 연결 관계 등을 고려해서 철자가 틀려도 비슷한 유사도를 나타낸다고 쓰여져 있는데, 결과 값이 별로 좋지 못한 관계로 이 부분은 그냥 스킵.. 자신이 직접 단어 벡터를 추가할 수도 있다. (이게 의미가 있나...) glove vector를 추가할 수도 있다. 그 밖의 fastText vector와 같은 다른 벡터들도 추가할 수가 있다. 핵심은 ' '으로 구분하고 첫번째 요소는 단어 2번째는 vecto..
2018.04.23