[TENSORFLOW] Reinforcement learning
강화 학습이란 현재의 상태를 인식해서 어떠한 행동을 취하고 해당 행동이 옮은지에 따라 포상을 취하게 된다. 이렇게 포상을 받게 되면, 이러한 포상이 최대가 될 수 있도록 하는 일련의 행동을 찾을 수가 있고, 이러한 행동들이 발생하게 하는 정책을 찾아냄으로써 학습을 해나가는 것이 바로 강화 학습이다.우리는 20년치의 주식 데이터를 가지고 언제 어떤 행동을 했어야 했는지에 대해 학습을 강화해 볼 것이다.행동은 크게 [주식을 산다, 주식을 판다, 기다린다] 이렇게 3 가지 action으로 분류하였다.코드를 보며 자세히 살펴보자. 우선 DecisionPolicy라고 하는 class를 생성해 주자. 일종의 abstract class라고 생각하자.그리고 DecisionPolicy를 상속받는 QLearningDeci..
2017.04.27