Reinforcement
강화
효과의 법칙에서 시간차 학습으로, 다시 도파민으로 — 보상으로 가치를 배우는 기계의 이론이 뇌의 작동 원리와 만난다.

행위의 시작 · REINFORCEMENT
1890년대 손다이크(Thorndike)의 퍼즐 상자 속 고양이에서 알파제로까지 — 강화의 이야기는 하나의 거대한 원환이다. 심리학에서 출발한 시행착오 학습이 컴퓨터과학의 수학이 되었다가, 다시 뇌로 돌아와 도파민의 정체를 밝힌다. 그 한가운데에는 단순한 질문이 있다 — 보상으로 가치를 어떻게 배우는가.
에드워드 손다이크(Edward Thorndike)는 빗장과 레버가 달린 퍼즐 상자(puzzle box)에 동물을 넣고 밖에 먹이를 두었다. 동물은 처음엔 거의 무작위로 움직이다가, 우연한 행동 하나가 탈출로 이어지면 그 행동을 빠르게 반복했다. 그가 정식화한 효과의 법칙(law of effect)은 이렇게 말한다 — 만족스러운 결과를 동반한 상황-반응 연결은 강화되고(stamped in), 성가신 결과를 동반한 연결은 약화된다.
튜링(Alan Turing)은 1950년 “성인의 마음 대신 어린이의 마음을 시뮬레이션하라”고 제안했고, IBM의 아서 새뮤얼(Arthur Samuel)은 이긴/진 게임에 따라 스스로 파라미터를 조정하는 체커(checkers) 프로그램을 만들었다. 곧 새뮤얼은 자기 창조물에게 지기 시작했고 — 자기가 만든 적수에게 패배를 인정한 최초의 과학자가 되었다 — 그 보고서에서 기계학습(machine learning)이라는 말이 채택된다.
공군 연구자 해리 클로프(Harry Klopf)의 “쾌락주의적 뉴런(the neuron is a hedonist)” 가설을 받아, 앤드루 바토(Andrew Barto)와 리처드 서튼(Richard Sutton)은 이를 수학적 형식으로 정련했다 — 환경(environment) 안에서 행동(action)으로 상태(state)를 옮기며 누적 스칼라 보상을 최대화하는 학습 틀, 곧 강화학습(reinforcement learning)이다. 그 안에서 보상 최대화는 두 갈래로 나뉜다 — 언제 무엇을 할지를 담은 정책(policy)과, 어떤 상태가 어떤 미래 보상을 가져올지 추정하는 가치 함수(value function). 바토와 서튼은 이를 행위자-비평가(actor-critic) 구조로 묶었다.
TEMPORAL-DIFFERENCE LEARNING
추측으로부터 추측을 배우다
서튼의 돌파구는 이것이었다 — 게임의 최종 결과(ground truth)를 기다릴 필요가 없다. 미래로 나아가며 우리는 “현재 진행형 기대”를 유지하고, 목적지에 가까워질수록 그 추정은 정확해진다. 연속된 기대 사이의 차이가 곧 학습 신호 — 시간차(temporal difference), 또는 TD 오류(TD error)다. 서튼의 말처럼 “우리는 추측으로부터 추측을 배운다”.
아래에서 직접 학습시켜 보자. 일렬 복도의 맨 오른쪽이 골(+1)이다. 에이전트가 한 칸씩 이동할 때마다 TD(0) 규칙 δ = r + γV(s′) − V(s)로 그 칸의 가치 V(s)를 갱신한다. 가치가 골에서부터 거꾸로 전파(backup)되는 것을 지켜보라.
● 에이전트 위치 · 칸의 진한 정도 = 가치 추정 V(s). 골(+1)에서부터 가치가 거꾸로 전파(backup)되는 것을 보세요.
아직 한 스텝도 밟지 않았습니다. 처음 모든 V(s)는 0 — 에이전트는 세계가 얼마나 좋은지 전혀 모릅니다.
같은 시기 신경생리학자 볼프람 슐츠(Wolfram Schultz)는 원숭이의 도파민 뉴런에서 풀리지 않는 현상을 보고 있었다. 먹이를 예고하는 단서(cue)가 도파민 급증을 일으켰지만, 정작 예상된 먹이를 잡을 때는 — 아무 일도 없었다. 게다가 단서를 켜고 주스를 주지 않자, 도파민 뉴런은 기준선 아래로 잠시 침묵했다. 보상도, 놀라움도 아니라면 도파민은 무엇인가?
솔크 연구소의 피터 데이언(Peter Dayan)과 리드 몬태규(Read Montague)는 그 데이터를 보자마자 알아봤다. 그것은 시간차였다.도파민 급증은 세상이 갑자기 더 유망해 보임(δ>0)을, 갑작스러운 고요는 상상보다 덜 유망함(δ<0)을, 정상 정적은 예상한 만큼(δ≈0)을 뜻했다. 종이 위와 실리콘 안에서 작동한 알고리즘이 뇌 안에서 발견된 것이다 — 시간차 학습은 도파민의 기능을 닮은 것이 아니라, 도파민의 기능 그 자체였다. 1997년 슐츠·데이언·몬태규는 『Science』에 이를 공동 발표한다.
이 발견은 행복으로도 이어진다. UCL의 로브 러틀리지(Robb Rutledge)는 도파민을 포함한 행복의 수학 모델에서, 한 번의 £1 이득이 주는 효과의 92% 가 다섯 번의 베팅 뒤 사라짐을 보였다. 순간의 행복은 일이 얼마나 잘 되어가는지가 아니라, 기대보다잘 되어가는지를 반영했다 — 정확히 TD 오류다. 헤도닉 트레드밀(hedonic treadmill)도, “기대를 낮춰라”가 통하지 않는 이유도 여기서 나온다.
시간차 학습은 도파민의 기능을 닮은 것이 아니었다. 그것이 도파민의 기능 그 자체였다.
Temporal-difference learning didn't just resemble the function of dopamine. It was the function of dopamine.
— The Alignment Problem, Ch.4
그러나 이 강력한 틀은 결정적인 질문에 침묵한다 — 우리가 무엇을 가치 있게 여겨야 하는가. 고전적 강화학습은 보상 구조를 주어진 것으로 보고 최적 정책을 찾는다. AI 시대의 진짜 문제는 그 반대다. 우리가 객석 뒤 비평가의 의자에 앉아 보상을 나눠주는 자일 때, 원하는 행동을 끌어내려면 보상을 어떻게 설계해야 하는가. 이것이 강화학습 맥락에서의 정렬 문제다.

핵심 개념
- 강화학습reinforcement learning
- 환경 안에서 행동으로 상태를 옮기며 누적 스칼라 보상을 최대화하는 학습 틀. 손다이크의 효과의 법칙을 바토·서튼이 수학화하며 창설했다.
- 정책policy
- 언제 무엇을 할지(상태→행동). 잘 훈련된 '근육 기억'에 해당하며, 행위자-비평가 구조의 행위자(actor)가 학습한다.
- 가치 함수value function
- 어떤 상태가 가져올 미래 보상·처벌의 기대값 V(s). 잘 훈련된 '스파이더 센스'에 해당하며 비평가(critic)가 학습한다.
- 시간차 학습temporal-difference (TD) learning
- 최종 결과를 기다리지 않고, 연속된 기대 추정의 차이로부터 학습하는 방법. 서튼: '우리는 추측으로부터 추측을 배운다.'
- 보상예측오류reward prediction error
- 받은 보상과 예측한 보상의 차이(= TD 오류 δ). 1997년 도파민 신호의 정체로 밝혀졌다. 도파민은 보상 자체가 아니라 그 오류를 부호화한다.
The Alignment Problem · Brian Christian