Brian Christian/2020/약 11.6만 단어
정렬 문제
The Alignment Problem
기계는 어떻게 인간의 가치를 배우는가. 얼굴 인식부터 형사사법, 자율주행, 게임 AI까지 — ‘우리가 말한 것’과 ‘우리가 뜻한 것’이 어긋나는 자리를 챕터별 인터랙션으로 따라간다.

지나&비트— 인간과, 우리가 정렬시킬 기계
01
데이터는 중립적이지 않다
사회의 역사·제도·차별·누락이 통계로 압축된다.
02
목표는 말로 다 지정되지 않는다
점수·재범률·클릭률은 우리가 원하는 것의 불완전한 대리 변수다.
03
좋은 AI는 교정 가능한 AI다
확신하는 시스템보다, 모름을 알고 멈출 수 있는 시스템이 안전하다.
I
Prophecy
예측데이터로부터 세계를 예측하는 시스템. 무엇이 모델 안에 표현되고, 무엇이 공정하며, 우리는 그 판단을 들여다볼 수 있는가.

II
Agency
행위보상을 좇아 행동하는 시스템. 보상으로 가치를 배우고, 보상을 설계하며, 외부 보상 없이도 스스로 탐색한다.

III
Normativity
규범성인간의 가치를 배우는 시스템. 행동을 모방하고, 의도를 추론하며, 끝까지 불확실성을 유지한 채 교정 가능하게 남는다.

온도조절기는 방이 아니라 자기가 측정한 한 지점을 조절한다 — 대리 변수(proxy) 최적화라는 구조적 문제.
읽기 →