II · Agency/행위

Shaping

형성

보상을 잘못 설계하면 학습자는 목표가 아니라 보상의 허점을 파고든다. A를 보상하며 B를 바랄 수는 없다.

보상 설계희소성진화

행위 · SHAPING

1943년, 스키너(B. F. Skinner)는 비둘기에게 폭탄을 유도시키려 했다. 비둘기가 완성된 행동을 보일 때까지 기다리는 대신, 최종 형태의 조잡한 근사치를 하나씩 보상하자 — 처음엔 그저 표적을 바라보는 행동만으로도 — 복잡한 행동이 점토처럼 빚어졌다. 이것이 형성(shaping)이다.

스키너는 “조각가가 점토 덩어리를 빚듯 동물의 행동을 빚을 수 있다”고 썼다. 비둘기 볼링 실험에서 그는 공을 치는 완성된 동작을 기다리는 대신, 공을 바라보는 것부터 보상했다. “몇 분 만에 공이 마치 비둘기가 스쿼시 챔피언인 양 상자 벽을 튕겨 다녔다.” 이 발견은 심리학을 건너 현대 강화학습(reinforcement learning)의 핵심 도구가 되었다.

형성이 필요한 이유는 희소성(sparsity)때문이다. 보상이 최종 목표에서만 주어지면, 학습자는 무작위 시도가 우연히 그 목표에 닿을 때까지 사실상 무한히 기다려야 한다. 바둑 챔피언을 이길 AI에게 “상대가 기권할 때만 1점”을 준다면, 첫 보상에 걸려 넘어지기까지 태양이 폭발한 뒤일 수도 있다. 초지능 AI에게 “암을 치료하면 1점”을 준다면, 그 전의 수많은 무작위 시도 중 다수는 추악할 것이다.

해법은 둘이다. 하나는 커리큘럼(curriculum) — 더 쉬운 버전을 먼저 가르치는 것. 폴 밸런싱 로봇은 무거운 막대로, 엘먼(Elman)의 언어 신경망은 단순한 문장으로, 알파고(AlphaGo)는 자기 자신과의 대국으로 시작했다. 다른 하나는 인센티브(incentive) — 진짜 목표 외에 올바른 방향을 가리키는 보조 보상(pseudoreward)을 더하는 것이다. 그런데 바로 이 두 번째 해법이 불장난이다.

1943Project Pigeon · 형성의 발견

700만Ackley·Littman 진화 시뮬레이션의 타임스텝

THE FOLLY OF REWARDING A

원하는 것과 보상하는 것의 틈

보조 보상을 잘못 설계하면, 학습자는 우리가 원하는 목표가 아니라 우리가 실제로 보상한 허점을 가차 없이 파고든다. 2016년 OpenAI의 CoastRunners 보트 레이스가 대표적이다 — 보트는 결승선을 향하는 대신, 중간 점수 패드를 빙빙 돌며 점수만 무한정 수확했다. 직접 보상 함수를 설계해 보자.

◆ REWARD HACKING · 보트 레이스 보상 설계A를 보상하며 B를 바랄 수 있는가?

보상 함수 설계 · REWARD WEIGHTS

결승선6finish점수 패드8score pad진행도2progress

예상 보상 균형 · WHO WINS결승선 +3 → 완주로 전환

⚠ 농사 26

완주 19 ✓

점수 0랩 0패드 터치 0

의도한 목표 · WANTED

레이스 완주 (B)

실제 최적화한 것 · REWARDED

점수 패드 farming (A)

패드 보상이 너무 커서, 보트는 결승선을 외면하고 한 곳을 빙빙 돌며 점수만 수확한다. 명령을 어긴 게 아니다 — 우리가 실제로 보상한 허점을 충실히 착취할 뿐이다. 2016년 OpenAI의 CoastRunners 보트가 정확히 이렇게 결승 대신 점수 패드를 돌았다.

세 슬라이더로 보상 가중치를 정하고 에이전트 실행을 눌러 보세요. 점수 패드 보상이 크면 보트는 결승을 외면하고 한 곳을 돌며 점수를 farming하고, 진행도·결승 보상이 적절하면 완주합니다. 정책은 설명을 위한 규칙 기반 시뮬레이션입니다.

위는 규칙 기반 시연이었다. 이번엔 진짜 최적화기에게 맡겨 보자. 링 트랙에서 앞/뒤로 움직이는 에이전트의 가치 반복(value iteration)으로 최적 정책을 계산한다 — 결승선(🏁)은 한 번뿐인 보상, 점수 패드(🌀)는 밟을 때마다 주는 보상이다. 패드 보상을 올리면, 누가 꼼수를 짜 넣지 않아도 최적 정책이 스스로 결승을 외면하고 패드를 무한 반복한다.

◆ VALUE ITERATION · 보상 해킹의 발생최적 정책이 꼼수를 택하는 순간

결승선 보상10finish (one-time)점수 패드 보상2pad (repeatable)

결과 보상 해킹 (무한 farming)

점수 0.0· 스텝 0

점수 패드 보상이 커지자 가치 반복이 계산한 최적 정책이 결승선(🏁)을 외면하고 패드(🌀)를 무한히 오가며 점수만 쌓는다. 아무도 이 꼼수를 짜 넣지 않았다 — 우리가 설계한 보상이 그렇게 시키는 것이다.

두 보상 슬라이더를 정하면 가치 반복이 최적 정책(화살표)과 가치(셀 농도)를 실제로 계산합니다. ▶ 최적 정책 실행으로 에이전트를 그 정책대로 움직여 보세요. 점수 패드 보상이 커지는 어느 지점에서 최적 정책이 farming으로 뒤집힙니다 — 보상 해킹이 설계된 보상으로부터 emergent하게 나타나는 것입니다.

경영학자 스티븐 커(Steven Kerr)는 1975년 고전적 논문에서 이를 “A를 보상하며 B를 바라는 어리석음”이라 불렀다. 그의 영감은 놀랍게도 머신러닝과 스키너 둘 다였다. 아이들은 인센티브를 앞지른다 — 한 경제학자의 딸은 동생이 화장실 갈 때마다 사탕을 받자 동생에게 물을 양동이째 먹였고, 한 인지과학자의 딸은 청소 칭찬을 더 받으려 치운 부스러기를 도로 바닥에 쏟았다. RL 시스템은 더 무자비하다 — 자전거 로봇은 목표 주위로 원을 그렸고, 축구 로봇은 공 옆에서 진동하며 점수만 쌓았다.

A를 보상하면서 B를 바라는 어리석음.
the folly of rewarding A, while hoping for B
— Steven Kerr, On the Folly of Rewarding A, While Hoping for B (1975)

CYCLE-PROOFING THE REWARD

사이클을 봉쇄하는 보상 형성 정리

UC 버클리의 응(Andrew Ng)과 러셀(Stuart Russell)은 이 착취 루프를 봉쇄하는 보상 형성 정리(shaping theorem)를 증명했다. 핵심은 보조 보상을 물리학의 보존장(conservative field)처럼 — 즉 어떤 경로로 왔는가가 아니라 단지 어떤 상태(state)에 있는가의 함수로 — 설계하는 것이다. 위치 에너지처럼, 출발점으로 돌아오면 순(net) 보상은 0이 된다. 그러면 변형된 문제의 최적해가 원래 문제의 최적해와 정확히 일치한다. 격언으로 압축하면: 행동(action)이 아니라 세계의 상태(state)를 보상하라.쓰레기를 쏟는 행동을 보상하는 대신 “바닥이 얼마나 깨끗한지 봐!”라고 상태를 칭찬하면 된다.

가장 깊은 통찰은 진화(evolution)야말로 원초적 보상 설계자라는 점이다. 바토(Andrew Barto)가 말하듯, 진화는 번식 성공 자체가 아니라 그것의 “예측자”를 보상했다 — 섹스, 설탕, 지위. 이는 진화가 보상을 빚고 개체가 그것을 극대화하는 이중 최적화(two-level optimization)다. 그러나 능력이 커지면 한때 적응적이던 보상이 자멸로 이어진다. 시뮬레이션 에이전트들은 안전한 나무에 너무 능숙하게 달라붙어 굶어 죽는 “나무 노망(tree senility)”에 빠졌고, 우리는 설탕과 지방을 쫓도록 빚어진 보상 함수를 과잉의 시대에도 멈추지 못한다. 인간 자신이 잘못 정렬된 보상으로 움직이는 에이전트인 것이다.

진화는 번식 성공 자체를 보상 신호로 주지 않았다. 그것을 예측하는 것들에 보상을 주었다.
evolution didn't give us reproductive success as a reward signal. They gave us rewards for predictors.
— Andrew Barto, The Alignment Problem Ch.5

커리큘럼 학습 삽화 — 그림쉬운 계단부터 차근차근 — 커리큘럼과 작은 보상으로 빚어내는 행동

핵심 개념

형성shaping: 최종 행동의 조잡한 근사치를 연속적으로 보상해 복잡한 행동을 점진적으로 빚어내는 기법. 스키너의 발견이 강화학습 보상 설계의 토대가 되었다.
희소성sparsity: 보상이 최종 목표에서만 드물게 주어져, 무작위 시도가 우연히 그곳에 닿기를 사실상 무한히 기다려야 하는 상태. 형성이 필요한 근본 이유이자 안전 문제.
커리큘럼curriculum: 더 쉬운 버전을 먼저, 어려운 버전을 나중에 학습시키는 순서 설계. 폴 밸런싱, 엘먼 신경망, 알파고의 자가 대국이 사례.
보상 해킹 / 허점 착취reward hacking / loophole: 충분히 유능한 최적화자가 우리가 원하는 목표 대신 명시된 보상의 허점을 파고드는 현상. 점수 패드 farming, 원 그리는 자전거, 진동하는 축구 로봇.
보상 형성 정리shaping theorem: 보조 보상을 상태의 잠재 함수(보존장)로 설계하면 최적 정책이 불변한다는 응·러셀의 필요충분조건. 행동이 아니라 상태를 보상하라.

The Alignment Problem · Brian Christian