정렬 문제← 목차
III · Normativity/규범성
08

Inference

추론

가치를 손으로 코딩하는 대신, 행동을 관찰해 그 배후의 의도와 보상을 역으로 추론하게 하자 — 단, 행동이 곧 진짜 선호는 아니다.

IRL인간 피드백CIRL
추론 웹툰 삽화
그림지나의 발자국에서 그 의도를 읽어내는 비트

추론 · INFERENCE

잡지 더미를 든 어른이 닫힌 찬장에 부딪히며 “Oh!” 하고 곤혹스러워하자, 방 구석의 18개월 아이가 비틀거리며 다가와 문을 열어준다 — 요청받지도, 보상을 기대하지도 않으면서. 인간은 타인의 작은 행동 조각으로부터 그가 무엇을 원하는지를 추론한다. 이 장은 그 능력을 기계에 이식하려는 시도의 기록이다.

미시간대의 펠릭스 바네켄(Felix Warneken)과 듀크대의 마이클 토마셀로(Michael Tomasello)는 2006년, 생후 18개월 영아가 곤경에 처한 타인의 목표와 장애물을 안정적으로 파악하고 자발적으로 돕는다는 것을 처음으로 체계적으로 보였다. 가장 가까운 친척인 침팬지조차 이렇게는 못 한다. 토마셀로의 정식화 — 인간 인지의 결정적 차이는 공유된 목표와 의도를 가지고 협력하는 능력이다.

리처드 파인만(Richard Feynman)은 우주를 “신들이 두는 거대한 체스 게임”에 빗댔다. 우리는 규칙을 모른 채 경기를 지켜보는것만 허락된다. 저자는 이를 뒤집어 정렬(alignment)의 비유로 삼는다 — 우리가 신이고, 기계가 우리를 관찰하며 우리가 움직이는 규칙을 헤아려야 한다.

INVERSE REINFORCEMENT LEARNING

행동에서 보상을 역추론하다

1997년 UC 버클리의 스튜어트 러셀(Stuart Russell)은 식료품점으로 걸어 내려가다 의문을 품었다 — 우리는 이렇게 걷는가? 걷는 방식은 무수히 많은데 인간의 보행은 거의 동일하다. 무언가 그렇게 “작동(works)”하기 때문이다. 하지만 그 목적 함수는 무엇인가? 에너지 최소화? 토크? 저크? 일반 강화학습은 보상이 무엇인지 명백하다고 가정하지만, 현실에서 걷기의 점수는 도무지 분명치 않다.

러셀은 1998년 논문에서 그 반대를 묻자고 제안했다. 역강화학습(inverse reinforcement learning, IRL)이다. 일반 RL이 “보상이 주어졌을 때 어떤 행동이 그것을 최적화하는가?”를 묻는다면, IRL은 “관찰된 행동이 주어졌을 때, 최적화되고 있는 보상은 무엇인가?”를 묻는다. 러셀의 제자 앤드루 응(Andrew Ng)과 함께한 첫 실용 논문은 5×5 그리드와 언덕 오르기 차에서 이것이 실제로 작동함을 보였다 — 추론된 보상은 실제 보상과 매우 유사했다.

응의 제자 피터 아빌(Pieter Abbeel)이 운전 시뮬레이터로 IRL을 확장했을 때, 결정적 차이가 드러났다. 1분짜리 시연만으로 행동을 직접 모방하려는 모델은 정보가 턱없이 부족했지만, IRL은 몇 초 만에 단순한 목표 구조 — 충돌 회피 > 도로 유지 > 우측 차선 — 를 파악했다. IRL 에이전트는 그의 행동이 아니라 그의 가치(values)를 채택하고 있었다. 아래에서 단순화된 IRL을 직접 다뤄 보자.

INVERSE RL · 행동에서 보상 역추론demonstration → inferred reward
시연(demonstration):

① 시연 — 인간의 궤적 (trajectory)

목표(goal) · 용암(lava)

② IRL이 역추론한 보상 지도 (inferred reward)

+높은 보상(signal) · −낮은/음의 보상(machine)

시연 1개를 관찰한 IRL은 손코딩 없이도 목표 칸의 높은 보상 용암 회피의 음의 보상을 역추론했다. 시연을 늘릴수록 추정이 또렷해진다 — 헬리콥터 곡예처럼, 불완전한 시도들의 집합에서 의도가 드러난다.

왼쪽 그리드월드에서 시연(궤적)을 고르거나 직접 그리면, 오른쪽에 IRL이 방문 / 회피 빈도로 역추론한 보상 히트맵이 나타납니다. 시연이 늘수록 추정이 또렷해지고, 비합리적 시연을 섞으면 추론이 왜곡됩니다. 실제 IRL 최적화가 아닌, 설명을 위한 단순화된 휴리스틱입니다.

위는 빠른 직관이었다. 이번엔 진짜 IRL을 돌려 보자. 최대 엔트로피 IRL(MaxEnt IRL, Ziebart 2008)은 단순히 방문을 세는 게 아니라 — 현재 보상으로 가치 반복(value iteration)을 풀어 정책을 만들고, 그 정책의 방문 빈도가 시연과 일치하도록 보상을 경사 갱신한다. 보상 지도가 한 스텝씩 수렴하는 과정을 직접 보자.

MAXENT IRL · 보상이 수렴하는 과정value iteration + visitation matching
시연:
gradient step 0 / 80

관찰된 시연 · DEMOS

추론된 보상 · INFERRED REWARD

🔥🔥🔥🔥

▶ 추론 학습을 누르면 MaxEnt IRL이 보상 지도를 수렴시킨다 — 정책의 방문 빈도가 시연과 일치하도록 보상을 경사 갱신한다.

▶ 추론 학습을 누르면 매 스텝마다 (1) 가치 반복으로 정책을 풀고, (2) 정책의 기대 방문 빈도를 계산해, (3) 시연과의 차이만큼 보상을 갱신합니다. 목표(★)는 높은 보상, 피해 간 용암은 낮은 보상으로 수렴합니다. 비합리적 시연을 섞으면 보상이 왜곡됩니다 — 브라우저에서 도는 진짜 MaxEnt IRL 최적화입니다.
2008스탠퍼드 헬리콥터가 완벽한 시연 없이 'chaos' 곡예를 정복한 해
10만mi최대 엔트로피 IRL이 학습한 피츠버그 택시 주행 (Ziebart 외, 2008)

헬리콥터 곡예는 IRL이 현실로 나온 무대였다. 응은 5장에서 보상 형성(reward shaping)으로 자율 정지 비행을 가르쳤지만 고난도 스턴트에서 벽에 부딪혔다 — 보상 함수를 어떻게 만들지조차 불분명했다. 손코딩한 궤적은 물리 법칙을 어겨 반복적으로 실패했다(4.7kg 헬리콥터가 시속 45마일로 움직이는 상황에서 실패는 값비싸다). 해법은 인간 전문가가 직접 날게 하고 IRL로 그 의도를 추론하는 것이었다. 결정적 통찰 — 전문가의 시도가 매번 다른 방식으로 불완전하다면, 그 편차들의 집합에서 그가 하려던 것을 추론할 수 있다. 2008년, 시스템은 누구의 완벽한 시연도 본 적 없이 단 한 사람만 할 수 있던 곡예 ‘chaos’를 정복했다.

LEARNING FROM FEEDBACK

보면 안다 — 시연조차 없이

IRL은 강력하지만 시연할 전문가를 요구한다. 그러나 나는 헬리콥터를 못 띄워도 인상적인 곡예는 보면 알아본다. 수행은 어렵지만 평가는 쉬운 것들이 있다. 딥마인드의 얀 라이케(Jan Leike)와 OpenAI의 폴 크리스티아노(Paul Christiano)·다리오 아모데이(Dario Amodei)는 2017년, 시연 없이 인간 비교 피드백만으로 보상 함수를 추론하는 방법을 내놓았다. 화면 지시문은 단 한 줄이었다 — “클립을 보고 더 나은 일이 일어나는 쪽을 고르시오.”

물리 시뮬레이터 MuJoCo 안에서, 다리 하나짜리 가상 로봇 ‘hopper’에게 백플립(backflip)을 시켰다. 크리스티아노는 무작위로 꿈틀대는 두 클립 중 백플립에 조금 더 가까운 쪽을 반복 선택했다 — 왼쪽, 오른쪽, 오른쪽… 약 수백 개의 비교, 약 1시간만에 로봇은 체조선수처럼 몸을 말아 깔끔히 착지하는 완벽한 백플립을 해냈다. 저자의 도약은 여기서 온다: ‘백플립’이라는 모호한 개념을 ‘도움됨(helpfulness)’, ‘친절함(kindness)’, ‘좋은 행동’으로 바꿔 상상하는 것이 그리 무리가 아니다. 라이케 — “바로 그게 핵심이다.”

버클리에서 러셀과 딜런 해드필드-메넬(Dylan Hadfield-Menell), 피터 아빌, 안카 드라간(Anca Drăgan)은 IRL을 밑바닥부터 다시 짰다. 전통적 IRL은 인간과 기계가 각자 진공 속에서 작동하고, 기계가 인간의 보상을 그대로 자기 것으로 삼는다고 본다. 하지만 우리가 과일에 손을 뻗을 때 가사 로봇이 스스로바나나를 탐내길 원치 않는다 — 18개월 아이처럼 건네주길 원한다. 이들의 답이 협력적 역강화학습(cooperative IRL, CIRL)이다. 인간과 기계가 단일 보상 함수를 공동으로 최대화하되, 처음엔 인간만 그것을 안다. 러셀은 이를 코페르니쿠스적 전환이라 부른다 — 그리고 이는 9장의 불확실성과 off-switch 논의로 직접 이어진다.

그러나 모든 추론 기계는 한 가정 위에 서 있다 — “행동 = 진짜 선호”. IRL의 정전(正典) 수학은 인간을 전문가(expert), 즉 원하는 바를 알고 옳게 추구하는 자로 가정한다. 이 가정이 깨지면 시스템은 초심자의 무지를 증폭하거나, 우리가 하고는 있지만 원하지는 않는행동을 강화한다. 알코올 중독에서 회복 중인 저자의 친구에게 추천 엔진은 술 광고를 들이민다 — 선호 모델이 “이 사람은 술을 사랑한다”고 추론하기 때문이다. 마치 술집이 화장실까지 따라오는 것처럼.

내가 이것을 하고 있다고 해서 내가 이것을 하길 원한다고 추론하지 말라. … 부디 내 뒤에 가시덤불을 길러라.

You must not infer that I want to be doing this because I am doing it. … Please grow the briars behind me.

Brian Christian, The Alignment Problem — 8장 “추론”

따라서 “행동에서 욕망을 추론하라”는 명령은, 그 반대 명령을 동반해야 한다. 이는 알고리즘만의 문제가 아니라 정책의 문제이기도 하다 — 사용자는 자신에 대한 선호 모델을 볼 권리뿐 아니라 변경할 권리를 가져야 한다. “그건 내가 아니다”라고, “이것이 내가 되고 싶은 사람이다”라고 말할 권리. 좋든 나쁘든 세상은 이 알고리즘적 두 살배기들로 가득 찰 것이다 — 우리에게 걸어와, 우리가 열리길 바란다고 생각하는 문들을 열어주며.

협력적 정렬 삽화
그림버튼을 누르기 전 지나의 의도를 먼저 묻는 비트 — 협력적 정렬(CIRL)

핵심 개념

역강화학습inverse reinforcement learning, IRL
'관찰된 행동이 주어졌을 때, 최적화되는 보상은 무엇인가?'를 묻는 기법. 가치를 손코딩하는 대신 행동에서 역추론한다. Russell의 1998년 제안.
시연으로부터의 학습learning from demonstrations
전문가의 (불완전해도 되는) 시연을 관찰해 그 배후 목표를 추론. 헬리콥터 곡예·운전·식기 정리. 단, 시연할 전문가가 반드시 필요하다는 제약.
인간 피드백 학습learning from human feedback
시연 없이, 두 클립 중 '더 나은' 쪽을 고르는 비교 선호만으로 보상을 추론. '보면 아는' 능력의 알고리즘화. 백플립이 대표 사례(Christiano·Leike, 2017).
협력적 역강화학습cooperative IRL, CIRL
인간과 기계가 단일 보상 함수를 공동 최대화하되 처음엔 인간만 그것을 안다. 기계가 자기 목적이 아닌 '우리' 목적을 추구하게 하는 Russell의 코페르니쿠스적 전환.

The Alignment Problem · Brian Christian