III · Normativity/규범성

Imitation

모방

따라 배우는 힘은 강력하지만, 한 번 분포를 벗어나면 작은 실수가 걷잡을 수 없이 증폭된다.

모방 학습분포 이동증폭

보고 배우다 · IMITATION

양파 써는 법을 보여주다 무심코 헛기침을 하면, 아이는 자르기 전에 헛기침까지 따라 한다. 과잉모방(overimitation)은 어리석음이 아니다 — 시연자를 합리적 행위자로 모델링한 결과이며, 인지 능력이 발달할수록 오히려 증가한다. 인간 고유의 이 능력이 AI의 가장 큰 성공들의 토대다.

모방 학습(imitation learning)에는 세 가지 이점이 있다. 타인의 시행착오의 결실을 받아 드는 효율성, 치명적 실수 없이 기술을 익히는 안전성, 그리고 말로 형식화하기 어려운 목표를 전달하는 능력 — Nick Bostrom이 말한 간접 규범성(indirect normativity)이다. 제한속도를 너무 넘지 않되 필요하면 약간, 차선 중앙을 지키되 자전거가 있으면 예외… 이 모두를 목적 함수로 적기는 어렵다. 그래서 우리는 그냥 말한다. “내가 운전하는 걸 봐. 이렇게 해.”

1990년 어느 일요일 새벽, CMU 대학원생 Dean Pomerleau는 신경망 자율주행차 ALVINN(Autonomous Land Vehicle in a Neural Network)으로 Pittsburgh에서 I-79를 따라 Erie까지 달렸다. 입력은 단 30×32 픽셀의 흑백 이미지뿐. ALVINN은 물리도 동역학도 몰랐다. “우리는 ‘내가 하듯 조향하라’는 것 외엔 아무것도 알려주지 않는다.” 운전이 ImageNet 이미지 분류와 거의 같은 문제로 바뀌었다 — 윈드실드 이미지를 보고 조향을 “분류”한다.

그런데 UC Berkeley의 Sergey Levine은 이 방식을 강의에서 소개하다 잠시 멈춘다. “이 방식에서 뭐가 잘못될 수 있을지 아이디어 있는 사람?” 학생들의 손이 번쩍 든다. 직접 운전대를 잡아 보자.

30×32ALVINN의 입력 — 흑백 픽셀로 I-79를 달렸다

제곱모방 학습에서 오류가 과제 크기에 비례하는 차수

100:0AlphaGo Zero가 72시간 뒤 원조 AlphaGo를 이긴 전적

◆ DISTRIBUTION SHIFT · 누적 오류 드라이빙behavioral cloning vs. DAgger

스텝당 오차 (noise) · 0.90

전문가 시연 라인 (점선)이탈 궤적 · 굵은 선 (compounding error)DAgger 회복 주행 (실선)편차 36px / 한계 46px

도로는 좌→우로 진행한다. 차선 중앙(점선)에서 위·아래로 벗어나면 이탈이다. ‘스텝당 오차’를 올리면 behavioral cloning은 회복하지 못한다.

차가 67% 지점에서 도로를 이탈했다. 전문가 시연만 본 정책은 한 번 중앙에서 벗어나면 본 적 없는 상황에 빠지고, 회복 데이터가 없어 오차가 기하급수적으로 증폭된다 — all bets are off.

전문가 시연 라인(점선)만 모방한 정책은 작은 오차에서 회복하는 법을 배운 적이 없다 — 한 번 중앙을 벗어나면 본 적 없는 상황에 빠져 오류가 거리의 제곱으로 증폭된다(누적 오류). DAgger(Ross & Bagnell, 2009)는 학습자가 실제로 빠지는 상황의 회복 데이터를 추가해 차를 다시 중앙으로 끌어온다. ALVINN의 30×32 픽셀시야에서 Pomerleau가 이미지를 조작해 회복을 “가짜로 만든” 트릭의 일반화된 형태다. 시뮬레이션은 설명을 위한 단순 추종 정책이다.

위는 드리프트의 직관이었다. 이번엔 정책을 진짜로 학습시켜 그 원인을 보자. 조향 정책 a(e)=w₀+w₁·e를 최소제곱으로 적합한다. 행동복제는 전문가가 늘 중앙에 있던 데이터(e≈0)만 보므로 벗어났을 때 어떻게 돌아오는지에 대한 정보가 0이다 → 보정 게인 w₁≈0. 학습된 정책 곡선과 주행을 함께 보라.

◆ BEHAVIORAL CLONING vs DAGGER · 실제 학습 정책같은 모델, 다른 데이터 분포

보정 게인 w₁ = 0.00

학습된 정책 a(e)

주행 (바람이 차를 옆으로 민다)

▶ 주행을 눌러 보라. 바람이 차를 옆으로 민다.

정책 a(e)=w₀+w₁·e를 최소제곱으로 실제 적합합니다. 왼쪽은 학습된 정책 함수(점선=전문가), 음영은 학습에 쓰인 e의 범위입니다. 행동복제는 e=0 부근만 보아 w₁≈0(보정 못 배움) → 바람에 이탈. DAgger는 벗어난 상태까지 학습해 w₁≈−0.9 → 완주. 모델은 같고 데이터 분포만 다릅니다.

근본 원인은 분포 이동(distribution shift)이다. Stéphane Ross의 말처럼 “모든 기계학습은 훈련 분포와 시험 분포가 같다는 가정에 의존한다.” 그러나 학습자는 전문가의 실행만 보는데, 전문가는 거의 위기에 빠지지 않는다. 학습자는 반드시 실수 하지만, 위기에서 빠져나오는 것을 본 적이 없다. 일반 지도학습은 오류가 과제 크기에 선형으로 비례하지만(사진 10배 → 오류 10배), 모방 학습은 한 실수가 미준비 상태를 낳아 오류가 과제 크기의 제곱으로 증가한다(10배 길게 달리면 100배 실수).

해법의 핵심은 상호작용(interaction)이다. 학습자가 되돌아가 “당신이 이 상황에 빠졌다면 어떻게 하겠어요?”라고 물을 수 있어야 한다. Ross와 Drew Bagnell의 DAgger(Dataset Aggregation)가 그 “성배”였다 — 정적 시연만으로는 100만 프레임 뒤에도 충돌했지만, DAgger는 세 번째 랩에서 거의 완벽하게 주행했다. Nvidia는 카메라 3대로 “인간 운전 + 중앙으로의 작은 보정”을 정답으로 삼아, 단 72시간의 데이터로 시골길과 고속도로를 사고 없이 달렸다.

그러나 더 미묘한 문제가 남는다. 모방은 본질적으로 가능주의(possibilism)적이다 — 전문가가 할 수 있는일을 당신은 못 할 수 있는데도, 모방은 그 일을 시작하게 만든다. Tim Cook의 답처럼, “내가 어떻게 하겠냐고? 나라면 그 상황에 처하지 않을 것이다.” 윤리학의 Professor Procrastinate, 강화학습의 on-policy/off-policy, 경제학의 차선의 이론 (theory of the second best) 모두 같은 긴장을 반복한다. 정렬된 시스템은 보상이 약간 낮더라도 실제로 안전한 길을 택하는 현실주의(actualism)를 따라야 한다.

모방의 마지막 한계는 교사를 능가할 수 없다는 것이다. Deep Blue는 70만 기보로 그랜드마스터를 모방했고, AlphaGo는 3,000만 수를 학습해 인간 수를 57% 정확도로 예측하며 2016년 이세돌을 꺾었다 — 인간을 초월한 기계의 본질은 모방가였다. 돌파구는 AlphaGo Zero였다. 인간 데이터 0, 무작위에서 시작해 자기 자신을 모방하며 72시간 만에 원조 AlphaGo를 100승 0패로 이겼다. David Silver의 말처럼 “AlphaGo Zero는 자기 자신의 교사가 된다.” 빠른 직관(정책망)과 느린 추론(MCTS)이 서로를 다듬는 이 선순환이 증폭(amplification)이다. Paul Christiano의 반복적 증류·증폭(iterated distillation and amplification)은 이 도식을, 외부 척도조차 없는 가치·도덕 영역으로 확장하려는 정렬의 청사진이다.

모든 기계학습은 훈련 분포와 시험 분포가 같다는 가정에 의존한다.
all machine learning relies on the assumption that your training and the test distribution are the same.
— Stéphane Ross — The Alignment Problem, Ch.7

자기대국 증폭 삽화 — 그림두 비트가 자기들끼리 두며 강해진다 — 자기대국을 통한 증폭(amplification)

핵심 개념

모방 학습imitation learning: 전문가의 시연을 따라 행동을 학습하는 기법. 효율성·안전성·형식화하기 어려운 목표 전달(간접 규범성)이라는 세 이점을 갖는다. AI 성공의 토대이자 함정.
분포 이동distribution shift: 학습자가 직접 행동할 때의 상태 분포가 훈련(전문가) 분포와 달라지는 현상. 전문가는 위기·회복을 보여준 적이 없어, 한 번 벗어나면 본 적 없는 상황에 빠진다.
누적 오류compounding error: 한 실수가 미준비 상태를 낳아 오류가 폭증하는 것. 지도학습은 오류가 과제 크기에 선형이지만 모방 학습은 제곱으로 증가한다.
DAggerdataset aggregation: 학습자가 행동하는 동안 전문가가 교정 입력을 주어 회복 데이터를 누적하는 상호작용 기법(Ross & Bagnell). 누적 오류를 선형으로 되돌리는 '성배'. 세 번째 랩에서 거의 완벽 주행.
증폭amplification: 시스템의 빠른 직관과 느린 추론이 서로를 다듬으며 강해지는 선순환. 자기모방을 통한 초월로, 인간 데이터 없이 교사를 능가한 AlphaGo Zero의 핵심.

The Alignment Problem · Brian Christian