Interactive infographic

상태, 행동, 보상의 지도

핵심: MDP는 마코프 체인에 행동과 보상을 더한 모델이다. 강화학습은 이 구조 위에서 장기 보상을 크게 만드는 정책을 배운다.

MDP = (S, A, P, R, γ) S: 상태 A: 행동 P: 전이확률 R: 보상 γ: 미래 보상 할인율

아래 Grid World에서 각 칸의 화살표는 현재 가치 추정 기준 가장 좋아 보이는 행동이다.

목표 +1위험 -1일반 이동 -0.03

Grid World 가치 반복

-출발 칸 가치
-출발 칸 정책
-정책 성향