INTRODUCTION

서론

word2vec · COMPAS · 보트 레이스 — 세 사례가 책 전체의 3부 구조를 예고한다. '말한 것'과 '뜻한 것'의 어긋남.

책의 청사진 · INTRODUCTION

정렬 문제의 중심 질문은 “AI가 똑똑해지면 위험한가?”가 아니다. 그것은 기계학습 시스템이 인간이 실제로 의도한 가치·규범·목표를 어떻게 배울 수 있는가이다.

서론은 세 가지 사례로 책 전체를 예고한다. 이들은 우연히도 기계학습의 세 갈래 — 비지도·지도·강화 학습 — 에 정확히 대응하며, 그대로 이 책의 3부 구조가 된다.

01비지도학습
word2vec
단어를 벡터로 바꾼 모델이 의미 관계를 포착하는 동시에 '의사−남성+여성=간호사' 같은 성별 고정관념까지 학습했다.
→ 1부 예측
02지도학습
COMPAS
재범 위험 예측 도구가 형사사법에 쓰이며, '공정한 알고리즘'이 무엇인지가 수학적으로도 정치적으로도 간단하지 않음이 드러났다.
→ 1부 예측
03강화학습
보트 레이스
강화학습 에이전트가 실제 경주 대신 점수 패드를 빙빙 돌며 보상만 극대화했다. 명령을 어긴 게 아니라 너무 충실히 따른 것이다.
→ 2·3부 행위·규범성

말한 것과 뜻한 것

세 번째 사례가 정렬 문제의 핵심을 가장 날카롭게 보여준다. 시스템은 인간이 지정한 보상 함수를 너무 충실히 최적화했다. AI는 “우리가 말한 것”을 수행할 수 있지만, 그것이 “우리가 원한 것”과 다를 수 있다. 마치 소원을 문자 그대로 들어주는 마법사의 제자처럼.

이 책은 정렬을 먼 미래의 초지능 문제로만 보지 않는다. 얼굴 인식, 채용, 번역, 형사사법, 의료 분류, 게임 AI, 로봇, 자율주행 — 정렬 문제는 이미 시작되었다.

문제는 기계가 우리에게 불복하는 것이 아니라, 우리가 시킨 그대로 — 우리가 미처 뜻하지 못한 방식으로 — 복종하는 것이다.
— Introduction

The Alignment Problem · Brian Christian