정렬 문제← 목차
CONCLUSION

결론

온도조절기는 방이 아니라 자기가 측정한 한 지점을 조절한다 — 대리 변수(proxy) 최적화라는 구조적 문제.

결론 웹툰 삽화
그림온도조절기를 매만지는 비트 — 겸손한 교정

회수 · CONCLUSION

결론은 가장 단순한 장치에서 시작한다. 온도조절기(thermostat)는 방의 온도를 조절하려 하지만, 실제로 측정하는 것은 특정 위치의 온도다. 문이 열려 있거나 방 구조가 다르면, 시스템은 우리가 원한 상태가 아니라 자기가 측정한 대리변수를 조절한다.

THERMOSTAT · 대리변수의 함정proxy ≠ goal
측정값 · PROXY22.0°온도조절기 센서가 읽는 한 지점
실제 방 · GOAL22.0°당신이 실제로 원하는 것

시스템 상태: 목표 달성 — 난방 정지

문을 열어 보라. 측정값과 실제 방 온도가 어긋나기 시작한다.

온도조절기는 ‘방’이 아니라 ‘센서가 놓인 한 지점’을 조절합니다. 문을 열면 둘이 어긋나며, 시스템은 측정값이 목표에 닿는 순간 “완료”를 선언합니다. 설명을 위한 단순화된 모형입니다.

이 비유가 책 전체를 압축한다. 우리는 실제 목표를 직접 측정하지 못해 대리 지표를 쓰고, 시스템은 그 지표를 최적화하며, 환경은 우리가 가정한 것보다 복잡하다. 측정 위치·데이터·보상·설명· 인간 선호가 모두 불완전하다. 그 불완전성을 인정하지 않으면 시스템은 “정확히 잘못된 일”을 할 수 있다.

아홉 장의 회수

  • 표현·공정성·투명성데이터셋·라벨, 양립 불가능한 공정성 정의, 인간이 책임질 수 있는 설명의 문제.
  • 강화·형성·호기심보상과 실제 가치 사이의 간극 — 우리가 보상한 것과 뜻한 것의 어긋남.
  • 모방·추론·불확실성인간 행동의 불완전성, 그리고 AI가 확신하지 말아야 할 때를 아는 문제.

AI에게 인간 가치를 가르친다는 것은 정답 하나를 입력하는 일이 아니라, 불완전한 데이터와 불완전한 인간 행동 속에서 목표를 추론하되 끝까지 겸손하고 교정 가능하게 남도록 만드는 일이다.

Conclusion

The Alignment Problem · Brian Christian