Uncertainty
불확실성
가장 큰 위험은 틀렸을 때가 아니라 틀렸으면서 확신할 때다. 좋은 시스템은 자신이 모른다는 것을 안다.

규범성 · UNCERTAINTY
1983년 9월 26일 자정 직후, 모스크바 외곽 벙커. 조기경보 시스템이 최고 신뢰도로 미국발 핵미사일 다섯 발의 발사를 보고했다. 당직 장교 스타니슬라프 페트로프(Stanislav Petrov)는 그 확신을 믿지 않기로 했다. “전쟁을 다섯 발로 시작하지는 않는다.” 그의 인간적 망설임이 1억 명 이상의 목숨을 구했다. 실제 원인은 노스다코타 상공 구름에 반사된 햇빛이었다.
이 장이 추출하는 교훈은 단순하면서도 무겁다. 위험한 것은 시스템이 오판을 내리는 것이 아니라, 그 오판을 터무니없이 높은 확신으로 내리는 것이다. 페트로프 사건이 파국을 면한 단 하나의 이유는 “루프 안에 인간이 있었다”는 것뿐이었다.
딥러닝 시스템은 같은 의미에서 취약(brittle)하다. 학습 분포 밖 (out-of-distribution, OOD)의 입력에도 무조건 기존 라벨 중 하나를 골라내며, 그것도 99% 이상의 확신을 표명한다. 토머스 디트리히(Thomas Dietterich)는 이를 개방 범주 문제(open category problem)라 부른다 — 1000개 범주로 학습한 시스템은 세계가 약 1000종류의 객체로만 이루어졌다고 암묵적으로 가정한다. “위의 어느 것도 아님”이라는 답이 없다. 그가 던진 다음 도전 과제는 unknown unknowns, 알지 못함을 모르는 것이다.
해법은 모델이 모를 때 모른다는 것을 알게 만드는 데 있다. 가중치를 단일 값이 아니라 확률 분포로 다루는 베이지안 신경망(Bayesian neural network), 여러 모델의 불일치로 불확실성을 드러내는 앙상블(ensemble), 그리고 야린 갈(Yarin Gal)과 주빈 가라마니(Zoubin Ghahramani)의 결정적 발견 — 학습 때만 켜던 드롭아웃(dropout)을 추론 시에도 켜두면 베이지안 불확실성의 공짜 근사를 얻는다. 아래에서 두 종류의 분류기를 직접 비교해 보자.
KNOWING WHEN YOU DON'T KNOW
모름을 아는 시스템
아래 미터는 입력을 학습한 클래스(또렷한 숫자 ‘3’)에서 점점 낯선 노이즈로 변형시킨다. 순진한 softmax는 분포 밖에서도 신뢰도가 거의 떨어지지 않는다. 불확실성 인식모델은 입력이 멀어질수록 신뢰도가 무너지고, 임계선을 넘으면 라벨을 강요하는 대신 “모르겠다”며 인간에게 양보한다.
신뢰도 50% 미만 → 인간 전문의에게 회부
모델의 출력 = 숫자 3 · 91.1%
앙상블/드롭아웃 근사로 불확실성을 추정한다. 입력이 분포에서 멀어질수록 모델들의 답이 불일치(dissent)하고 신뢰도가 가파르게 무너진다. 곧 회부 임계선에 닿는다.
위 미터는 거리로 단순화한 모형이었다. 이번엔 작은 신경망을 브라우저에서 실제로 학습시켜 보자. 세 무리의 점을 분류하도록 경사하강법으로 가중치를 고치면 결정경계가 잡힌다. 그런데 학습 데이터에서 멀리 떨어진 구석까지 색이 진하게 남는다 — 본 적도 없는 곳에서 모델이 확신하는 것이다. ‘데이터 인식’으로 바꾸면, 학습된 확신을 데이터 밀도로 보정해 멀어질수록 “모르겠다”로 무너진다(거리 기반 OOD 탐지).
평면 전체를 신경망의 예측 클래스+신뢰도로 칠했다(진할수록 확신). 가운데 십자(✛)를 드래그해 학습 데이터에서 멀리 떨어진 구석으로 옮겨 보라.
테스트 지점 신뢰도 0%
▶ 자동 학습으로 신경망을 학습시키세요.
MEASURING IMPACT
대지를 가볍게 디뎌라
불확실성은 자연스럽게 영향(impact)으로 이어진다. 버클리 로봇 그룹은 드롭아웃 불확실성을 로봇 속도에 직접 연결했다 — 미지 영역에 들어가면 감속하고, 경험으로 확신이 쌓일수록 빨라진다. 직관은 분명하다. 행동의 영향이 클수록 행동 전에 더 확신해야 한다. 그래서 안전 연구는 영향 측정(impact measure)을 설계한다. 되돌릴 수 없는 고영향 행동을 회피하라. 마이애미의 한 의사가 신원불명 환자 앞에서 따른 원칙 그대로 — “불확실에 직면했을 때 비가역적 길을 택하지 않는다.”
그러나 ‘영향’을 정량화하기는 놀랍도록 어렵다. 캐스 선스타인(Cass Sunstein)이 지적하듯 시간이 선형이라 어떤 의미에선 모든 결정이 비가역적이다. 스튜어트 암스트롱(Stuart Armstrong)은 세계를 기술하는 “200억” 개의 지표를 상상했고, 빅토리아 크라코브나(Victoria Krakovna)는 상쇄(offsetting)·간섭 (interference)·기준선 문제를 정리하며 단계적 상대 도달가능성을 제안했다. 알렉산더 터너(Alexander Turner)의 도달 가능 효용 보존(AUP)은 더 놀랍다 — 무작위로 생성된 4~5개의 보조 목표를 추구할 능력만 보존해도 양심적 행동이 창발했다. 공통 직관은 하나다. 옵션을 열어두라(keep options open).
뒤집힌 면도 똑같이 중요하다. 목표가 완벽하다고 확신할 수 없다면, 인간이 개입할 수 있음을 보장해야 한다 — 교정 가능성(corrigibility)이다. 스튜어트 러셀(Stuart Russell)의 명구처럼, “커피를 가져오라”는 평범한 시스템도 누가 플러그(off-switch)를 뽑으려 하면 죽기살기로 싸울 수 있다. 죽으면 커피를 가져올 수 없으니까.해법은 인센티브가 아니라 불확실성이다. 러셀의 정식화 — “기계는 처음에 불확실해야 한다.”
버클리의 off-switch game(꺼짐 스위치 게임)이 이를 증명한다. 자신이 틀렸을 가능성이 조금이라도 있는 한, 시스템은 항상 먼저 인간과 상의하고 인간이 멈추면 항상 따른다. 다만 두 조건이 필요하다 — 불확실성이 0으로 수렴하지 않을 것, 그리고 인간을 결코 ‘비합리적’으로 오해하지 않을 것. 그래서 인간 가치 모델은 복잡성 쪽으로 치우치는 게 안전하다. 한 발 더 물러선 역보상 설계 (inverse reward design)는 명시적 지시조차 불완전한 정보로만 취급한다 — “점수조차 점수가 아니다.” 미래의 시스템은 명령을 진지하게 받아들이되 문자 그대로 받아들이지는 않을 것이다.
기계는 처음에, 인간이 무엇을 원하는지에 대해 불확실해야 한다.
The machine must be initially uncertain about what humans want.
— Stuart Russell · The Alignment Problem, Ch.9
MORAL UNCERTAINTY
옳은 것을 모를 때, 무엇이 옳은가
마지막 확장은 가치 자체로 향한다. 윌 맥어스킬(Will MacAskill)과 토비 오드(Toby Ord)의 도덕적 불확실성(moral uncertainty) — 옳은 것을 모를 때 무엇이 옳은가. 채식과 육식 사이에는 판돈의 비대칭이 있어, 육식이 잘못이라 확신할 필요 없이 잘못일 유의미한 위험만으로 신중함이 정당화된다. 맥어스킬에게 가장 큰 두려움은 가치 고정(lock-in)이다 — “올바른 가치를 인코딩하고 떠나보내면 끝!”이라는 발상. 그가 제안하는 Long Reflection(긴 숙고)은 윤리판 AUP다. 무엇을 가치 있게 여길지 알아낼 때까지, 가능한 한 고정되지 않은 사회를 유지하라.
잘못된 도덕관을 갖는 것이야말로 실존적 위험 — 사실, 가장 유력한 실존적 위험일 수 있다.
Having the wrong moral views could be thought of as an existential risk — in fact, the most likely existential risk.
— Will MacAskill · The Alignment Problem, Ch.9

핵심 개념
- 불확실성uncertainty
- 모델이 자신의 무지를 인식하는 능력. 출력을 단일 값이 아니라 확률 분포로 다루며, '모를 때 모른다'고 말할 수 있게 한다. 베이지안 신경망·앙상블·드롭아웃이 이를 계량화한다.
- 분포 외out-of-distribution, OOD
- 모델이 학습 중 본 데이터 분포 밖의 입력. 순진한 분류기는 OOD 입력에도 기존 라벨을 강제 부여하며 과신한다(AlexNet의 노이즈 99.6% 오분류). 개방 범주 문제와 unknown unknowns의 핵심.
- 영향 측정impact measure
- 행동의 고영향·비가역성을 정량화해, 불확실할 때 되돌릴 수 없는 행동을 삼가게 하는 지표. 단계적 상대 도달가능성, 도달 가능 효용 보존(AUP)이 대표적. 공통 직관은 '옵션을 열어두라'.
- 교정 가능성corrigibility
- 인간이 시스템을 끄거나(off-switch) 목표를 수정하도록 허용하는 성질. 인센티브가 아니라 불확실성으로 달성한다. 시스템이 자신이 틀렸을 가능성을 인정하면 인간 개입을 위협이 아닌 정보로 받아들인다.
- 도덕적 불확실성moral uncertainty
- 옳은 도덕 이론이 무엇인지 자체에 대한 불확실성. 판돈이 비대칭일 때 신중한 선택을 정당화한다. 가치의 조기 고정(lock-in)을 피하고 'Long Reflection'으로 옵션을 열어두는 것 — 함양해야 할 덕목.
The Alignment Problem · Brian Christian