강화학습과 MDP: 불확실한 세계에서 행동을 선택하는 수학

Interactive infographic

상태, 행동, 보상의 지도

핵심: MDP는 마코프 체인에 행동과 보상을 더한 모델이다. 강화학습은 이 구조 위에서 장기 보상을 크게 만드는 정책을 배운다.

MDP = (S, A, P, R, γ) S: 상태 A: 행동 P: 전이확률 R: 보상 γ: 미래 보상 할인율

아래 Grid World에서 각 칸의 화살표는 현재 가치 추정 기준 가장 좋아 보이는 행동이다.

목표 +1위험 -1일반 이동 -0.03

할인율 γ 0.90

미끄러짐 확률 0.10

반복 횟수 0

-출발 칸 가치

-출발 칸 정책

-정책 성향