자료구조 - RL로 미로탐색
강화학습의 원리: Agent가 어떠한 행동을 할 때 앞으로의 보상이 최대가 되느냐의 조건을 따라 행동을 취한다. 마르코프 dicision process: 하나의 셀에서 다음 셀로 갈때 보상이 얼마나 올까? 액션의 확률: st = s at=a 미로에서 벽으로 막혀있으면 확률: 0 R(s,s') : s->s'로 갈 때(transition) 보상이 얼마나 되느냐 전체 Reward: 현재시점의 reward보다 미래시점의 reward가 더 낮다. Grid world problem: 목적지에만 grid에만 reward를 주어서 agent가 목적지에 다다를 수 있게 한다. Rt = -1 (on all transitions) 단, 출발점과 목적지는 reward가 0. 과정: (출발지와 목적지는 업데이트 해주지 않는다...
2020.04.21