AI의 두 축을 관통하는 철학: 강화학습(RL)은 연역적이고, LLM은 귀납적이다?

최근 챗GPT를 비롯한 인공지능 기술이 폭발적으로 발전하면서, 수많은 기술 용어와 구조도들이 쏟아져 나오고 있습니다. 하지만 이 거대한 AI의 흐름을 수식이나 코드가 아닌, ‘철학적 추론 방식’으로 접근해 보면 어떨까요?

현재 AI를 이끄는 두 가지 핵심 알고리즘인 강화학습(RL)과 거대 언어 모델(LLM)은 그 태생부터 세상을 이해하는 방식이 완전히 다릅니다. 결론부터 말하자면, LLM은 철저히 귀납적(Inductive)이고 데이터 중심적이며, 강화학습은 연역적(Deductive)이고 목적 지향적입니다.

이 두 가지 관점이 어떻게 다른지, 그리고 왜 이 둘의 만남이 현대 AI의 혁신을 이끌어냈는지 철학적 시선으로 분석해 봅니다.

1. LLM (거대 언어 모델): 귀납적 추론을 하는 ‘데이터 중심의 학자’

LLM(Large Language Model)은 본질적으로 데이터 중심적(Data-Centric)입니다.

초기 학습(Pre-training) 단계의 LLM에게는 세상을 구하기 위해서라거나, 훌륭한 시를 쓰라는 거창한 ‘목적’이 없습니다. 그저 인터넷이라는 바다에 존재하는 수조 개의 단어 데이터를 묵묵히 들이마실 뿐입니다.

이는 철학의 귀납적 접근(Inductive Approach)과 정확히 맞닿아 있습니다.

바텀업(Bottom-Up) 방식의 지식 형성: 귀납법은 수많은 개별 사례들을 관찰하여 하나의 보편적인 일반 규칙을 찾아내는 논리입니다. (예: 매일 관찰해보니 해가 동쪽에서 뜬다 -> 고로 태양은 동쪽에서 뜬다)
LLM의 뇌 구조: LLM은 문법책을 먼저 읽고 말을 배운 것이 아닙니다. 수십억 개의 문장(개별 사례)을 통계적으로 관찰한 뒤, 그 안에서 “이 단어 다음에는 보통 저 단어가 오더라”, “사과와 바나나는 과일이라는 군집에 속하더라"라는 잠재적이고 보편적인 규칙을 스스로 귀납하여 뇌 속에 형성합니다.

이처럼 LLM은 방대한 데이터를 통해 세상의 ‘패턴’을 귀납적으로 모사해 낸, 매우 유창하지만 뚜렷한 목표 의식은 없는 학자에 가깝습니다.

2. RL (강화학습): 연역적 추론을 하는 ‘목적 지향적 탐험가’

반면 알파고나 로봇 제어, 자율주행 등에 주로 쓰이는 강화학습(Reinforcement Learning)은 목적 지향적(Goal-Oriented)입니다.

강화학습에는 LLM이 먹어 치우는 방대한 ‘텍스트 데이터셋’이라는 개념보다, ‘보상(Reward)‘이라는 절대적인 목표가 훨씬 중요합니다. 로봇에게 걷는 법을 가르칠 때 인간이 걷는 영상(데이터)을 수만 시간 보여주는 것이 아니라, “넘어지지 않고 앞으로 나아가면 +1점"이라는 목적만 던져줍니다.

이것은 철학의 연역적 접근(Deductive Approach)과 놀랍도록 닮아 있습니다.

탑다운(Top-Down) 방식의 행동 도출: 연역법은 확실한 대전제(진리)를 최상단에 두고, 이를 바탕으로 개별적인 사실들의 결론을 논리적으로 이끌어냅니다.
RL의 뇌 구조: 강화학습 에이전트의 뇌 속에 있는 유일한 대전제는 “누적 보상의 극대화가 최선이다"라는 명제입니다. 에이전트는 이 뚜렷한 진리를 꼭대기에 두고, “지금 이 행동을 하면 궁극적인 대전제(보상)를 달성하는 데 논리적으로 부합하는가?“를 역산하여 행동의 가치를 연역적으로 증명하고 교정해 나갑니다.

때문에 강화학습은 데이터에 얽매이지 않고 인간이 상상하지 못한 창의적인 수(알파고의 37수 등)를 스스로 창조해 낼 수 있는 힘을 가집니다.

3. 완벽한 융합: 귀납적 지식에 연역적 나침반을 쥐여주다 (RLHF)

그렇다면 우리가 매일 사용하는 똑똑한 ChatGPT는 둘 중 어느 쪽일까요? 정답은 ‘두 철학의 경이로운 결합’입니다.

과거의 LLM은 귀납적으로 수닙많은 지식을 쌓아 유창하게 말할 수 있었지만, 무엇이 진실인지, 무엇이 인간에게 유익한지 판단할 기준(목적)이 없었습니다. 그래서 거짓말을 그럴듯하게 하는 환각(Hallucination) 현상이 심했죠.

현대의 AI 연구자들은 이 딜레마를 해결하기 위해 RLHF(인간 피드백 기반 강화학습)라는 기술을 도입했습니다.

1단계 (귀납적 지식 흡수): 먼저 LLM이 세상의 모든 텍스트를 귀납적으로 관찰하여 방대한 개념의 지도를 만듭니다.
2단계 (연역적 방향성 제시): 이렇게 똑똑해진 모델에게 강화학습(RL)을 도입합니다. “인간의 의도에 맞고 안전하고 논리적인 답변을 하는 것이 가장 높은 보상이다"라는 뚜렷한 대전제(목적)를 주고 행동(답변)을 연역적으로 교정합니다.

데이터에서 세상의 의미를 찾아내는 ‘귀납적 뇌(LLM)‘에게, 뚜렷한 목표를 향해 전략을 세우는 ‘연역적 나침반(RL)‘을 장착시킨 것. 이것이 바로 현재 우리가 마주하고 있는 인공지능 혁신의 본질입니다.

마치며

AI 기술이 아무리 복잡한 수학과 코드로 이루어져 있다 하더라도, 결국 그것이 세상을 학습하고 문제를 해결하는 방식은 인류가 수천 년간 고민해 온 철학적 사유의 방식(귀납과 연역)을 그대로 투영하고 있습니다. 기술을 이런 철학적 렌즈를 통해 바라볼 때, 우리는 다가올 AI의 미래를 조금 더 선명하게 이해할 수 있을 것입니다.

AI의 두 축:
연역적 탐험과 귀납적 통찰

현대 인공지능은 세상을 이해하는 두 가지 오래된 철학적 방식을 계승했습니다. 목표를 설정하고 거꾸로 행동을 최적화하는 강화학습(RL)과, 방대한 데이터에서 패턴을 발견해 일반적인 규칙을 찾아내는 거대 언어 모델(LLM)이 그 주인공입니다. 이 섹션에서는 두 모델의 근본적인 사고방식 차이를 대조해 봅니다.

연역적 탐험가 (Deductive)

"누적 보상 극대화라는 대전제를 증명하기 위해 행동한다."

• 목적 중심: 보상 함수가 모든 의사결정의 최상위 원칙
• 시행착오: 환경과 부딪히며 경험을 통해 정책 갱신

LLM

귀납적 학자 (Inductive)

"수조 개의 텍스트 데이터에서 보편적 패턴을 길어 올린다."

• 데이터 중심: 데이터의 통계적 분포가 모델의 정체성
• 패턴 매칭: 다음 단어를 예측하며 문맥적 의미 형성

Reinforcement Learning

보상으로 배우는 지능

강화학습은 정답지가 없는 환경에서 '보상(Reward)'이라는 유일한 이정표를 따라 학습합니다. AWS 리포트에 따르면, 에이전트는 환경과 끊임없이 상호작용하며 현재 상태를 파악하고 행동을 결정합니다. 이 과정은 마치 미로를 탈출하는 쥐가 치즈를 향해 전략을 수정해 나가는 것과 같으며, 장기적으로 가장 큰 이득을 주는 '정책'을 연역적으로 완성해 나가는 과정입니다.

학습의 핵심: 정책 파라미터 자동 갱신

사용자가 "행동 A"를 선택했을 때 큰 보상을 얻으면, 에이전트 내부의 함수 가중치($\theta$)는 행동 A를 할 확률을 높이는 방향으로 즉시 수정됩니다. 이는 사람이 코드를 수정하는 '룰베이스'가 아닌, 데이터가 스스로 로직을 만드는 '기계학습'의 본질입니다.

에피소드 반복에 따른 누적 보상 최적화

Large Language Model

텍스트 우주에서의 귀납적 추론

카카오페이 기술 블로그가 설명하는 LLM의 작동 원리는 6단계의 정밀한 파이프라인으로 구성됩니다. 이 모든 단계는 인간의 언어 데이터를 숫자의 공간(벡터 공간)으로 옮겨와, 문맥 속에서 가장 확률이 높은 단어를 골라내는 '확률 기반 생성기'의 역할을 수행합니다.

Step 1: Tokenization

문장을 의미 단위(토큰)로 분해

Step 2: Embedding

토큰을 고차원 벡터 좌표로 변환

Step 3: Attention

단어 간의 문맥적 관계 가중치 계산

Step 4: Prediction

다음 토큰의 확률 분포 생성

Tokenization

인간이 이해하는 문장을 AI가 처리할 수 있는 가장 작은 단위인 '토큰'으로 나눕니다. 단어 단위가 아닌 '서브워드(Subword)' 방식을 사용하여 신조어나 오타에도 유연하게 대응합니다.

"나는 공부한다" → ["나", "는", " 공", "부", "한다"]

융합의 혁명: RLHF

방대한 데이터를 귀납적으로 습득한 LLM은 유창하지만 '목적'이 없었습니다. 여기에 강화학습(RL)의 '보상 체계'를 도입한 것이 바로 RLHF(인간 피드백 기반 강화학습)입니다. 귀납적 지식에 연역적 나침반을 쥐여줌으로써, AI는 단순한 문장 생성을 넘어 인간의 의도에 부합하는 가치 있는 답변을 생성하게 되었습니다.

귀납적 지식 (LLM)

연역적 방향성 (RL)

인간 친화적 AI