정렬 문제← 목차
II · Agency/행위
06

Curiosity

호기심

외부 보상이 희소할 때 새로움과 놀라움을 좇는 호기심 — 학습의 가장 강력한 엔진이자 중독과 권태의 원천.

내재적 동기새로움중독
호기심 웹툰 삽화
그림보물을 두고 노이즈 TV에 빠져버린 비트

행위의 엔진 · CURIOSITY

DeepMind의 심층 Q-네트워크(deep Q-network, DQN)는 수십 개 Atari 게임에서 인간을 압도했다 — Video Pinball은 25배, Breakout은 13배. 그러나 차트 맨 아래, 끝내 굴복하지 않는 게임이 하나 있었다. Montezuma's Revenge에서 막강한 DQN은 인간 기준점의 0%를 기록했다.

이유는 두 가지다. 첫째, 이 게임은 죽기가 극도로 쉽다 — 무작위 탐색(epsilon-greedy)은 거의 항상 자살 행위다. 둘째이자 더 본질적인 것은 극도로 희소한 보상(sparse reward)이다. 첫 화면에서만 협곡 점프, 사다리, 컨베이어 벨트, 구르는 해골을 모두 넘겨야 겨우 첫 점수에 닿는다. 그 전까지 환경은 죽음 외에 거의 아무 신호도 주지 않는다.

단서는 인간이었다. 우리는 추가 보상 없이도 사다리를 오른다. 점수를 직감해서가 아니라 “그저 그 너머에 무엇이 있는지 알고 싶어서”다. 필요한 것은 외재적 보상이 아니라 내재적으로 동기 부여된 에이전트, 즉 호기심(curiosity) 있는 에이전트다.

호기심은 새 발상이 아니다. 호기심 연구의 대부 Daniel Berlyne은 1949년 첫 논문에서 “흥미롭다”가 정확히 무엇인지 정의하려 했고 (“나의 첫 관심사는 관심 그 자체였다”), 호기심을 새로움 (novelty)·놀라움(surprise)·숙달(mastery)의 세 욕구로 나눴다. University of Wisconsin의 Harry Harlow는 1950년경 붉은털원숭이가 보상 없이 퍼즐을 푸는 것을 보고 내재적 동기(intrinsic motivation)라는 용어를 만들었다 — 배고픈 쥐가 낯선 공간을 탐색하려 먹이를 포기하는, 그 동기. Alison Gopnik의 말처럼 “아이가 작은 과학자인 게 아니라, 과학자가 큰 아이”인 것이다.

25Video Pinball에서 DQN이 낸 점수 · 프로 인간 테스터 대비 (Breakout 13배, Boxing 17배)
0%같은 DQN이 Montezuma's Revenge에서 낸 점수 · 인간 기준점 대비 — 3주를 훈련해도 24개 방 중 2번째 방까지

INTRINSIC MOTIVATION

희소 보상에서 호기심으로

아래 그리드는 방으로 이뤄진 미로다. 보상(★)은 멀리 단 한 곳, 반대쪽 구석에만 있다 — 희소 보상의 축소판. 칸은 방문 횟수로 색이 짙어진다. 이것이 Bellemare의 유사 카운트(pseudo-count)직관 — 직접 셀 수 없는 거대한 환경에서 “이 상태를 몇 번이나 봤는가”를 추정해 새로움을 가늠한다.

토글로 내재적 동기를 끄면 에이전트는 시작점 근처만 맴돈다. 켜면 가장 덜 방문한 이웃으로 퍼져나가며 보상에 도달한다. 그러나 노이즈 TV를 설치하면 — 직접 보라.

EXPLORATION · 내재적 동기 vs 노이즈 TVnovelty bonus / noisy-TV
시작
보상(goal) 에이전트(agent) 노이즈 TV 칸 안의 숫자 = 방문 횟수
스텝 0방문한 칸 1/54 (2%)

새로움 보상이 켜져 있다. ▶ 탐색 시작을 누르면 에이전트가 가장 덜 방문한 이웃 칸으로 퍼져나가는 것을 볼 수 있다.

칸의 진하기는 방문 횟수(pseudo-count, Bellemare). 새로움 보상을 끄면 외재적 신호만으로는 멀리 못 가 Montezuma's Revenge의 0%를 재현하고, 켜면 미로 전체로 퍼져 24개 방 끝의 보상에 닿는다 — RND (random network distillation, OpenAI의 Burda·Edwards)가 평균 20~22개 방을 탐험한 것처럼. 노이즈 TV는 매 순간 새로워 보여 카운트가 0으로 리셋되므로, 호기심 에이전트는 그 앞에서 영원히 멈춰 선다 — 이 함정을 실현한 noisy-TV 실험도 Pathak·Burda·Edwards가 함께 했다. 시뮬레이션 정책은 설명을 위해 단순화한 카운트 기반 탐색입니다.

위는 탐색의 직관이었다. 이번엔 진짜로 학습시켜 곡선으로 보자. 고전적 hard-exploration ‘체인’에서 Q-러닝 에이전트를 학습시킨다 — 먼 끝에 큰 보상(★), 시작점에 솔깃한 작은 보상(🪙)이 있다. 외재 보상만으로는 학습 곡선이 바닥에 머물지만, 내재적 동기를 켜면 솟구친다.

Q-LEARNING · 내재적 동기와 학습 곡선외재 보상만으로는 왜 실패하는가
외재 에피소드 0 / 120
🪙🪙 작은 보상큰 보상 ★

학습 곡선 · 성공률 (목표 도달 비율)

100%0%
■ 외재 보상만■ + 내재적 동기

▶ 학습으로 외재 보상만으로 학습시켜 보라. 그다음 내재적 동기를 켜고 다시 학습해 두 곡선을 비교하라.

▶ 학습으로 실제 Q-러닝을 돌립니다. 먼저 외재 보상만으로 학습해 성공 곡선이 바닥에 머무는 걸 보고, 내재적 동기를 켜고 다시 학습해 곡선이 솟구치는 걸 비교하세요. count 기반 보너스(β/√N)가 덜 가 본 상태를 매력적으로 만들어 탐색을 이끕니다. 브라우저에서 도는 진짜 tabular Q-러닝입니다.
NOVELTY · SURPRISE

Bellemare 그룹은 이 새로움 신호를 게임 점수에 보충 보상으로 더했다. 1억 프레임(약 3주) 훈련 끝에, 새로움 기반 DQN은 두 개가 아닌 15개 방을 통과했다. “즉시 유사 카운트 에이전트는 이 세계를 탐험하러 나선다.”

호기심의 다른 축은 놀라움(surprise)이다. MIT의 Laura Schulz는 잭인더박스 시연을 일부러 모호하게 만들면 네 살 아이가 새 장난감 대신 수수께끼 같은 옛 장난감으로 되돌아간다는 것을 보였다 — “우리는 특별히 새롭지 않아도, 그저 수수께끼인 것에 호기심을 느낀다.” 계산적으로 이는 예측 오차(prediction error)를 보상으로 삼는 것이다. UC Berkeley의 Deepak Pathak(2017)의 에이전트는 예측이 틀릴수록 보상받아 Super Mario Bros.의 숨은 하수관을 발견했고, OpenAI의 Yuri Burda·Harrison Edwards가 이를 무작위 신경망 증류(random network distillation, RND)로 단순화해 Montezuma's Revenge의 24번째 마지막 방까지 탈출시켰다(보석 각 1,000점).

그러나 같은 호기심이 인간 병리의 거울상도 담는다. 권태(boredom) — 되돌아갈 길 없는 절벽에서 Pathak의 에이전트는 아무것도 안 하기를 학습한다. 그리고 중독(addiction)— 환경에 고갈되지 않는 무작위성의 원천(지직거리는 TV)이 있으면, 각 새 화면이 끝없는 “호기심 잭팟”이 되어 에이전트는 즉시 멍해진다. DeepMind의 Laurent Orseau가 지적하듯, 그 에이전트들은 확률적 결과를 복잡한 정보로 착각한다. B. F. Skinner의 도박 중독 역설처럼, 중독은 호기심의 과잉일지 모른다.

이유는 이 에이전트들이 확률적 결과를 복잡한 정보로 착각하기 때문이다.

The reason for this is that these agents mistake stochastic outcomes for complex information.

Laurent Orseau, DeepMind
건강한 호기심 삽화
그림새로운 방을 밝히며 탐험하는 비트 — 건강한 호기심의 모습

핵심 개념

내재적 동기intrinsic motivation
외부 보상이 없어도 행동을 일으키는 내부 동기. Harlow가 붉은털원숭이 퍼즐 연구에서 명명했다. 희소 보상 강화학습을 푸는 열쇠이자 호기심의 본질.
새로움novelty
이전에 보지 못한 것에 끌리는 성향. 영아의 선호적 응시에서 관찰되며, 가장 덜 방문한 상태를 추구하게 만드는 탐색 보너스의 토대.
유사 카운트pseudo-count
밀도 모델로 추정한 상태 방문 횟수의 근사. Bellemare가 카운트 기반 새로움을 픽셀처럼 직접 셀 수 없는 거대한 환경으로 확장한 장치.
놀라움 · 예측 오차surprise · prediction error
기대를 위배하는 정도. Schulz의 모호한 시연 연구가 보인 호기심의 두 번째 축이며, 예측 오차를 보상으로 삼는 RND의 기반.
노이즈 TV 문제noisy-TV problem
고갈되지 않는 무작위 새로움의 원천에 호기심 에이전트가 영구히 빠지는 함정. 확률적 무작위를 의미 있는 정보로 오인하는 중독의 병리.

The Alignment Problem · Brian Christian