Brian Christian/2020/약 11.6만 단어

정렬 문제

The Alignment Problem

기계는 어떻게 인간의 가치를 배우는가. 얼굴 인식부터 형사사법, 자율주행, 게임 AI까지 — ‘우리가 말한 것’과 ‘우리가 뜻한 것’이 어긋나는 자리를 챕터별 인터랙션으로 따라간다.

처음부터 읽기 →목차로 건너뛰기

지나＆비트— 인간과, 우리가 정렬시킬 기계

책을 관통하는 세 통찰

데이터는 중립적이지 않다

사회의 역사·제도·차별·누락이 통계로 압축된다.

목표는 말로 다 지정되지 않는다

점수·재범률·클릭률은 우리가 원하는 것의 불완전한 대리 변수다.

좋은 AI는 교정 가능한 AI다

확신하는 시스템보다, 모름을 알고 멈출 수 있는 시스템이 안전하다.

PROLOGUE프롤로그

도서관에 갇힌 12세 천재 월터 피츠 — 생각하는 기계를 향한 오래된 야망에서 정렬 문제가 시작된다.

읽기 →INTRODUCTION서론

word2vec · COMPAS · 보트 레이스 — 세 사례가 책 전체의 3부 구조를 예고한다. '말한 것'과 '뜻한 것'의 어긋남.

읽기 →

Prophecy

예측

데이터로부터 세계를 예측하는 시스템. 무엇이 모델 안에 표현되고, 무엇이 공정하며, 우리는 그 판단을 들여다볼 수 있는가.

Representation

표현

예시로부터 배우는 힘은 곧 데이터에 종속되는 약점이다 — 모델이 세계를 어떻게 표현하느냐가 누가 공정하게 대표되느냐를 결정한다.

편향단어 임베딩대표성

Fairness

공정성

COMPAS 논쟁이 드러낸 진실 — 그럴듯한 공정성 정의들은 기저율이 다른 한 수학적으로 동시에 만족될 수 없다.

COMPAS보정불가능성

Transparency

투명성

가장 정확한 모델일수록 들여다볼 수 없다. 높은 정확도는 충분하지 않다 — 맞는 답을 잘못된 이유로 낼 수 있기에.

블랙박스단순성해석 가능성

Agency

행위

보상을 좇아 행동하는 시스템. 보상으로 가치를 배우고, 보상을 설계하며, 외부 보상 없이도 스스로 탐색한다.

Reinforcement

강화

효과의 법칙에서 시간차 학습으로, 다시 도파민으로 — 보상으로 가치를 배우는 기계의 이론이 뇌의 작동 원리와 만난다.

보상TD 학습도파민

Shaping

형성

보상을 잘못 설계하면 학습자는 목표가 아니라 보상의 허점을 파고든다. A를 보상하며 B를 바랄 수는 없다.

보상 설계희소성진화

Curiosity

호기심

외부 보상이 희소할 때 새로움과 놀라움을 좇는 호기심 — 학습의 가장 강력한 엔진이자 중독과 권태의 원천.

내재적 동기새로움중독

III

Normativity

규범성

인간의 가치를 배우는 시스템. 행동을 모방하고, 의도를 추론하며, 끝까지 불확실성을 유지한 채 교정 가능하게 남는다.

Imitation

모방

따라 배우는 힘은 강력하지만, 한 번 분포를 벗어나면 작은 실수가 걷잡을 수 없이 증폭된다.

모방 학습분포 이동증폭

Inference

추론

가치를 손으로 코딩하는 대신, 행동을 관찰해 그 배후의 의도와 보상을 역으로 추론하게 하자 — 단, 행동이 곧 진짜 선호는 아니다.

IRL인간 피드백CIRL

Uncertainty

불확실성

가장 큰 위험은 틀렸을 때가 아니라 틀렸으면서 확신할 때다. 좋은 시스템은 자신이 모른다는 것을 안다.

불확실성영향 측정교정 가능성

CONCLUSION결론

온도조절기는 방이 아니라 자기가 측정한 한 지점을 조절한다 — 대리 변수(proxy) 최적화라는 구조적 문제.

읽기 →