<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/"><channel><title>Markov Decision Process | The Logos</title><link>https://thelogos.dev/tags/markov-decision-process/</link><description>AI-friendly Korean/English knowledge hub designed for fast crawling while remaining welcoming to human visitors.</description><generator>Hugo 0.148.2</generator><language>ko-KR</language><managingEditor/><webMaster/><lastBuildDate>Tue, 16 Jun 2026 12:44:55 +0000</lastBuildDate><atom:link href="https://thelogos.dev/tags/markov-decision-process/index.xml" rel="self" type="application/rss+xml"/><item><title>강화학습과 MDP: 불확실한 세계에서 행동을 선택하는 수학</title><link>https://thelogos.dev/posts/rl-mdp/</link><pubDate>Tue, 16 Jun 2026 00:40:00 +0900</pubDate><dc:creator>DaeYoung Kim</dc:creator><category>engineering</category><category>Reinforcement Learning</category><category>MDP</category><category>Markov Decision Process</category><category>AI</category><category>제어</category><category>마코프 확장</category><guid isPermaLink="true">https://thelogos.dev/posts/rl-mdp/</guid><description>&lt;div
class="ai-summary-box my-6 p-5 rounded-2xl bg-indigo-50/50 dark:bg-slate-800/50 backdrop-blur-sm border border-indigo-100 dark:border-indigo-500/20 shadow-sm relative overflow-hidden group">
&lt;div
class="absolute inset-0 bg-gradient-to-br from-indigo-500/5 to-purple-500/5 opacity-0 group-hover:opacity-100 transition-opacity duration-500 pointer-events-none">
&lt;/div>
&lt;div class="relative z-10 flex items-start gap-4">
&lt;div class="flex-1">
&lt;div class="flex items-center gap-2 mb-2">
&lt;span
class="inline-flex items-center rounded-md bg-indigo-100 px-2.5 py-1 text-xs font-bold text-indigo-700 dark:bg-indigo-500/20 dark:text-indigo-300 ring-1 ring-inset ring-indigo-700/10 dark:ring-indigo-400/20 shadow-sm">
&lt;svg class="w-3.5 h-3.5 mr-1.5" viewBox="0 0 24 24" fill="none" stroke="currentColor"
stroke-width="2.5" stroke-linecap="round" stroke-linejoin="round">
&lt;path d="M12 2v20M17 5H9.5a3.5 3.5 0 0 0 0 7h5a3.5 3.5 0 0 1 0 7H6">&lt;/path>
&lt;/svg>
AI 요약
&lt;/span>
&lt;/div>
&lt;div class="text-slate-700 dark:text-slate-300 text-sm md:text-base leading-relaxed break-keep [&amp;>p]:m-0">
MDP는 마코프 체인에 행동과 보상을 더해 순차적 의사결정을 표현한다. 각 상태의 가치는 당장의 보상뿐 아니라 미래 보상과 전이 불확실성에 의해 정해진다. 할인율, 미끄러짐 확률, 가치 반복 횟수를 바꾸면 정책 화살표와 가치 지도가 어떻게 바뀌는지 확인할 수 있다.
&lt;/div>
&lt;/div>
&lt;/div>
&lt;/div>
&lt;h2 id="인터랙티브-인포그래픽">인터랙티브 인포그래픽&lt;/h2>
&lt;p>Grid World에서 할인율, 미끄러짐 확률, 반복 횟수를 바꾸면 각 상태의 가치와 정책 화살표가 달라진다. 즉 MDP가 단순한 경로 찾기가 아니라 불확실성과 장기 보상을 함께 계산하는 틀임을 보여준다.&lt;/p></description><content:encoded>&lt;![CDATA[<div class="ai-summary-box my-6 p-5 rounded-2xl bg-indigo-50/50 dark:bg-slate-800/50 backdrop-blur-sm border border-indigo-100 dark:border-indigo-500/20 shadow-sm relative overflow-hidden group"><div class="absolute inset-0 bg-gradient-to-br from-indigo-500/5 to-purple-500/5 opacity-0 group-hover:opacity-100 transition-opacity duration-500 pointer-events-none"/><div class="relative z-10 flex items-start gap-4"><div class="flex-1"><div class="flex items-center gap-2 mb-2"><span class="inline-flex items-center rounded-md bg-indigo-100 px-2.5 py-1 text-xs font-bold text-indigo-700 dark:bg-indigo-500/20 dark:text-indigo-300 ring-1 ring-inset ring-indigo-700/10 dark:ring-indigo-400/20 shadow-sm"><svg class="w-3.5 h-3.5 mr-1.5" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2.5" stroke-linecap="round" stroke-linejoin="round"><path d="M12 2v20M17 5H9.5a3.5 3.5 0 0 0 0 7h5a3.5 3.5 0 0 1 0 7H6"/></svg>
AI 요약</span></div><div class="text-slate-700 dark:text-slate-300 text-sm md:text-base leading-relaxed break-keep [&>p]:m-0">
MDP는 마코프 체인에 행동과 보상을 더해 순차적 의사결정을 표현한다. 각 상태의 가치는 당장의 보상뿐 아니라 미래 보상과 전이 불확실성에 의해 정해진다. 할인율, 미끄러짐 확률, 가치 반복 횟수를 바꾸면 정책 화살표와 가치 지도가 어떻게 바뀌는지 확인할 수 있다.</div></div></div></div><h2 id="인터랙티브-인포그래픽">인터랙티브 인포그래픽</h2><p>Grid World에서 할인율, 미끄러짐 확률, 반복 횟수를 바꾸면 각 상태의 가치와 정책 화살표가 달라진다. 즉 MDP가 단순한 경로 찾기가 아니라 불확실성과 장기 보상을 함께 계산하는 틀임을 보여준다.</p><style>
.thelogos-interactive-frame-shell {
box-sizing: border-box;
width: 100%;
max-width: 100%;
margin: 36px 0 56px;
overflow: hidden;
border: 1px solid rgba(15, 23, 42, 0.16);
border-radius: 18px;
background: #07111f;
box-shadow: 0 24px 60px rgba(15, 23, 42, 0.16);
}
.dark .thelogos-interactive-frame-shell,
body.dark .thelogos-interactive-frame-shell {
border-color: rgba(255, 255, 255, 0.12);
box-shadow: 0 24px 70px rgba(0, 0, 0, 0.36);
}
.thelogos-interactive-frame-shell iframe {
display: block;
width: 100%;
min-height: 680px;
border: 0;
background: #07111f;
}
.thelogos-interactive-frame-fallback {
padding: 16px 18px;
margin: 0;
color: #d7e5f5;
background: #0f1d33;
}
@media (max-width: 640px) {
.thelogos-interactive-frame-shell {
margin-top: 28px;
margin-bottom: 44px;
border-radius: 14px;
}
.thelogos-interactive-frame-shell iframe {
min-height: 760px;
}
}</style><div class="thelogos-interactive-frame-shell"><iframe src="/markov-extensions/rl-mdp/" title="강화학습과 MDP: 불확실한 세계에서 행동을 선택하는 수학 인터랙티브 인포그래픽" loading="lazy" scrolling="no"/><noscript><p class="thelogos-interactive-frame-fallback">
자바스크립트가 꺼져 있으면 인터랙티브 인포그래픽이 표시되지 않을 수 있다.<a href="/markov-extensions/rl-mdp/">인포그래픽 페이지를 직접 열기</a></p></noscript></div><script>
(function () {
const shell = document.currentScript.previousElementSibling;
const iframe = shell && shell.querySelector('iframe');
if (!iframe) return;
function currentTheme() {
return (document.documentElement.classList.contains('dark') || document.body.classList.contains('dark')) ? 'dark' : 'light';
}
function syncTheme() {
iframe.contentWindow?.postMessage({
type: 'thelogos-interactive-theme',
theme: currentTheme()
}, window.location.origin);
}
window.addEventListener('message', function (event) {
if (event.origin !== window.location.origin || event.source !== iframe.contentWindow || event.data?.type !== 'thelogos-interactive-height') return;
const nextHeight = Math.max(680, Math.ceil(Number(event.data.height) || 0));
iframe.style.height = nextHeight + 'px';
});
iframe.addEventListener('load', syncTheme);
const observer = new MutationObserver(syncTheme);
observer.observe(document.documentElement, { attributes: true, attributeFilter: ['class'] });
observer.observe(document.body, { attributes: true, attributeFilter: ['class'] });
syncTheme();
}());</script><h2 id="1-요약-executive-summary">1. 요약 (Executive Summary)</h2><p>강화학습(Reinforcement Learning)은 “정답 라벨”을 보고 배우는
지도학습과 다르다. 에이전트는 행동을 선택하고, 환경은 결과와 보상을
돌려준다. 에이전트는 단기 보상만이 아니라 장기 누적 보상을 키우는
방향으로 정책을 개선한다.
이 문제를 수학적으로 표현하는 대표적 틀이 MDP(Markov Decision
Process)다.</p><h2 id="2-mdp의-구성요소">2. MDP의 구성요소</h2><p>MDP는 보통 다음 다섯 요소로 표현한다.</p><div class="highlight"><pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;"><code class="language-text" data-lang="text"><span style="display:flex;"><span>MDP = (S, A, P, R, γ)</span></span></code></pre></div><ul><li>S: 가능한 상태들의 집합</li><li>A: 가능한 행동들의 집합</li><li>P: 어떤 상태에서 어떤 행동을 했을 때 다음 상태로 갈 확률</li><li>R: 그 전이에서 받는 보상</li><li>γ: 미래 보상을 현재 기준으로 얼마나 중요하게 볼지 정하는 할인율
예를 들어 로봇이 창고에서 이동한다면 상태는 위치와 배터리 잔량,
행동은 전진·회전·충전, 보상은 목표 도착, 충돌 패널티, 시간 비용이 될 수
있다.</li></ul><h2 id="3-마코프-체인과의-차이">3. 마코프 체인과의 차이</h2><p>마코프 체인에서는 상태 전이가 정해진 확률에 따라 발생한다. 에이전트가
선택할 행동은 없다. 반면 MDP에서는 행동이 전이확률을 바꾼다.</p><div class="highlight"><pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;"><code class="language-text" data-lang="text"><span style="display:flex;"><span>마코프 체인: 상태 → 다음 상태</span></span><span style="display:flex;"><span>MDP: 상태 → 행동 → 다음 상태 + 보상</span></span></code></pre></div><p>즉 MDP는 “관찰하는 확률 과정”이 아니라 “개입할 수 있는 확률
과정”이다.</p><h2 id="4-가치함수와-정책">4. 가치함수와 정책</h2><p>강화학습에서 중요한 개념은 가치함수와 정책이다. 가치함수는 어떤
상태가 장기적으로 얼마나 좋은지를 나타낸다. 정책은 각 상태에서 어떤
행동을 선택할지 정하는 규칙이다.</p><div class="highlight"><pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;"><code class="language-text" data-lang="text"><span style="display:flex;"><span>V(s) = 그 상태에서 시작했을 때 기대되는 장기 누적 보상</span></span><span style="display:flex;"><span>π(s) = 그 상태에서 선택할 행동</span></span></code></pre></div><p>에이전트의 목표는 좋은 정책을 찾는 것이다.</p><h2 id="5-왜-어려운가">5. 왜 어려운가</h2><p>강화학습이 어려운 이유는 현재 행동의 결과가 즉시 드러나지 않을 수
있기 때문이다. 지금 얻은 작은 손해가 장기적으로 큰 이익을 만들 수도
있고, 지금 얻은 보상이 미래 위험을 키울 수도 있다.
또한 탐험과 활용의 균형이 필요하다. 이미 좋아 보이는 행동만 반복하면
더 좋은 행동을 발견하지 못한다. 반대로 계속 탐험만 하면 성과가 안정되지
않는다.</p><h2 id="6-활용-분야">6. 활용 분야</h2><p>강화학습과 MDP는 게임 AI, 로봇 제어, 자율주행, 추천 시스템, 재고관리,
포트폴리오 의사결정, 에너지 최적화 등 순차적 의사결정 문제가 있는 곳에
적용된다.
다만 현실 적용에서는 보상 설계가 매우 중요하다. 보상을 잘못 설계하면
에이전트는 인간이 의도하지 않은 방식으로 보상을 극대화할 수 있다. 이것은
단순한 기술 문제가 아니라 시스템 설계 문제다.</p><h2 id="7-결론">7. 결론</h2><p>MDP는 불확실한 세계에서 행동을 선택하는 수학적 언어다. 강화학습은 그
언어를 바탕으로 경험을 통해 정책을 개선한다. 결국 핵심 질문은
이것이다.</p><blockquote><p>“지금의 선택이 미래의 가능성을 어떻게 바꾸는가?”</p></blockquote><h2 id="참고자료">참고자료</h2><ul><li>MathWorks, “Kalman Filter - MATLAB &amp; Simulink”, 확인일:
2026-06-16,<a href="https://www.mathworks.com/discovery/kalman-filter.html">https://www.mathworks.com/discovery/kalman-filter.html</a></li><li>Alex Becker, “Kalman Filter Explained Through Examples”, 확인일:
2026-06-16,<a href="https://kalmanfilter.net/">https://kalmanfilter.net/</a></li><li>Stan Reference Manual, “MCMC Sampling”, 확인일: 2026-06-16,<a href="https://mc-stan.org/docs/reference-manual/mcmc.html">https://mc-stan.org/docs/reference-manual/mcmc.html</a></li><li>MIT OpenCourseWare, “Lecture 25: Random Walks”, 확인일: 2026-06-16,<a href="https://ocw.mit.edu/courses/6-042j-mathematics-for-computer-science-fall-2010/resources/lecture-25-random-walks/">https://ocw.mit.edu/courses/6-042j-mathematics-for-computer-science-fall-2010/resources/lecture-25-random-walks/</a></li><li>Stanford CS221, “Markov Decisions”, 확인일: 2026-06-16,<a href="https://stanford.edu/~cpiech/cs221/handouts/markovDecisions.html">https://stanford.edu/~cpiech/cs221/handouts/markovDecisions.html</a></li><li>Bailey, D. H. &amp; López de Prado, M., “The Deflated Sharpe Ratio:
Correcting for Selection Bias, Backtest Overfitting and Non-Normality”,
Journal of Portfolio Management, 2014; SSRN 확인일: 2026-06-16,<a href="https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2460551">https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2460551</a></li></ul>
]]></content:encoded></item></channel></rss>