핵심: MDP는 마코프 체인에 행동과 보상을 더한 모델이다. 강화학습은 이 구조 위에서 장기 보상을 크게 만드는 정책을 배운다.
아래 Grid World에서 각 칸의 화살표는 현재 가치 추정 기준 가장 좋아 보이는 행동이다.