정렬 문제← 목차
I · Prophecy/예측
03

Transparency

투명성

가장 정확한 모델일수록 들여다볼 수 없다. 높은 정확도는 충분하지 않다 — 맞는 답을 잘못된 이유로 낼 수 있기에.

블랙박스단순성해석 가능성
투명성 웹툰 삽화
그림정답은 내놓지만 속은 보이지 않는 블랙박스

예측의 대가 · TRANSPARENCY

가장 강력한 모델은 대체로 가장 이해하기 어렵고, 가장 이해하기 쉬운 모델은 대체로 가장 부정확하다. 이 한 문장의 역설 앞에서, 우리는 정확도 투명성 중 무엇을 신뢰할지 결정해야 한다. 1990년대 중반의 어느 폐렴 프로젝트는 그 선택이 사람의 생명이 걸린 문제임을 보여주었다.

카네기 멜런(Carnegie Mellon)의 대학원생 Rich Caruana는 약 1만 5천 명의 폐렴(pneumonia) 환자 데이터로 여러 모델을 맞붙였다. 당시 폐렴은 미국의 6번째 사망 원인이었고 환자의 약 10%가 사망했기에, 고위험 환자를 가려 입원시키는 일은 곧 생명 구조였다. 그가 맡은 신경망이 로지스틱 회귀 같은 전통 기법을 큰 차이로 이겼다. 병원들은 곧장 그것을 배포하려 했다.

그러나 Caruana는 거부했다. 같은 데이터로 규칙 기반(rule-based) 모델을 학습시키던 Richard Ambrosino가 이상한 규칙을 발견했기 때문이다: “천식 병력이 있으면 저위험이므로 외래로 처리하라.” 의사들에게 묻자 충격적인 답이 돌아왔다 — 그것은 데이터 속의 진짜 패턴이었다. 천식 환자는 위험하다고 여겨 곧바로 입원·중환자실에 배치됐고, 그 집중 치료 덕분에 사망률이 오히려 낮았던 것이다.

상관(correlation)은 참이었지만 모델이 내린 처방(외래)은 정반대였다. 즉 천식 환자를 저위험으로 만든 바로 그 치료를, 모델은 그 환자에게서 박탈하려 했다. 규칙 모델에서는 이 규칙이 그대로 보였기에 잡아낼 수 있었다. 문제는 신경망도 같은 논리를 학습했지만 그것을 드러내지 않는다는 점이다. 두 모델을 직접 비교해 보자.

ASTHMA PARADOX · 단순 규칙 vs 블랙박스천식 환자는 저위험인가?
모델:
정확도 ACCURACY83%
투명성 TRANSPARENCY완전 공개
환자 선택 · 폐렴 사망률 예측
환자 C 에 대한 예측○ 저위험 → 외래
왜? · 적용된 규칙 목록

규칙이 모두 보인다. 의심스러운 규칙(⚠)을 눌러 검토해 보세요 — 통계적으로는 참이지만 인과적으로는 치명적인 규칙이 숨어 있다.

해석가능한 모델은 약간 덜 정확하다(83%). 그러나 그 대가로 위험을 눈으로 볼 수 있다. 결국 피츠버그 병원들은 신경망이 큰 차이로 이긴 더 단순한 모델을 배포했다.

모델을 토글하고 환자를 골라 왜?를 확인하세요. 천식 환자(환자 C)에게 두 모델 모두 “저위험”을 출력하지만, 규칙 모델만 ⚠ 천식 → 저위험규칙을 드러내 위험을 포착하게 합니다. 블랙박스는 약간 더 정확하나 “왜?”에 답하지 못합니다. 수치는 설명을 위한 예시입니다.

위는 미리 정해둔 규칙이었다. 이번엔 데이터에서 진짜로 학습시켜 보자. 천식 환자가 (더 집중적인 치료 덕에) 오히려 더 자주 생존한 가상의 폐렴 데이터에 로지스틱 회귀를 학습시키면, 경사하강법이 천식 계수를 음수로— ‘천식 → 위험 낮춤’으로 — 끌어내린다. 그리고 이 모델은 해석 가능하기에, 우리는 그 위험한 계수를 막대에서 곧장 읽어 잡아낼 수 있다.

LOGISTIC REGRESSION · 계수를 직접 학습모델은 '천식 → 저위험'을 배운다
epoch 0 / 240

학습된 계수 · LEARNED COEFFICIENTS (사망 위험)

고령 (65세+)
+0.00
천식
+0.00
저혈압
+0.00
의식 저하
+0.00
만성질환
+0.00
빈맥
+0.00
← 보호적 (생존↑)위험 (사망↑) →

정확도 29%· 환자 80명 · 특징 6

▶ 학습으로 로지스틱 회귀를 학습시키세요. 계수가 데이터에서 자라납니다.

▶ 학습으로 로지스틱 회귀를 경사하강 학습시키면 계수 막대가 자라납니다. 천식 막대가 0 아래(보호적)로 내려가는 것을 보세요 — 데이터의 교란(confounding)을 모델이 그대로 학습한 것입니다. 블랙박스로 바꾸면 더 정확해도 이 계수를 읽을 수 없습니다. 브라우저에서 도는 진짜 경사하강 학습입니다.

애초에 복잡한 모델이 꼭 필요했을까? 임상 대 통계 예측(clinical versus statistical prediction)의 오랜 전통은 그렇지 않다고 답한다. 1940년대 Ted Sarbin은 고교 석차와 적성검사 점수 두 가지만 쓴 단순 선형 회귀가 8쪽 서류와 면담까지 동원한 임상심리학자와 차이가 없음을 보였고, Paul Meehl(1954)은 거의 100개 영역 중 인간이 우위를 보인 것이 단 6개뿐임을 정리했다. Robyn Dawes는 한 걸음 더 나아갔다 — 무작위 가중치 모델 조차 전문가만큼, 동일 가중치 모델은 그 이상으로 정확했다.

Dawes의 결론은 유명하다: 요령은 어떤 변수를 볼지 알고, 그 다음 더하는 법을 아는 것이다. 인간 전문성은 정보를 통합하는 데가 아니라 무엇을 볼지 고르는 데 있었다. 듀크의 Cynthia Rudin은 이 정신을 21세기로 잇는다. COMPAS만큼 정확하면서 한 문장에 담기는 재범 예측 모델, 그리고 SLIM·Bayesian Rule Lists로 데이터로부터 최적의 단순 모델을 도출한다. 의학의 심장질환 점수표가 어디서 왔냐는 물음에 그가 외친 답은 통렬하다 — “그들이 지어냈다!(They made it up!)”

그러나 원시 픽셀·음성·언어를 다루는 모델은 단순할 수가 없다. 이때 우리는 블랙박스 을 사후에 들여다봐야 한다. 현저성(saliency)은 모델이 어디를 보는지 열지도로 보여주지만, 동물 대신 흐릿한 배경을 본 “보케(bokeh) 탐지기”나, 의료 이미지의 자(ruler)를 악성으로 학습한 피부암 모델처럼 허술한 단서에 매달리기도 한다. 특징 시각화(feature visualization)는 더 깊이 들어가 망이 무엇을 ‘보는지’ 보여주지만(덤벨을 떠올리면 팔이 함께 나타난다), TCAV로 개념 수준까지 가도 한계는 남는다. Vaughan의 연구는 더 투명한 모델에서 사람이 오히려 실수를 알아챌 수 있음을 보였다.

~10%당시 폐렴 환자의 사망률 · 미국 6번째 사망 원인
1.5만맞대결에 쓰인 폐렴 환자 데이터 규모
6 / 100Meehl(1954): 인간이 통계 모델에 우위를 보인 영역 수

신경망을 출하하지 않은 게 천만다행이었다.

Thank God we did not ship that neural net.

Rich Caruana · 폐렴 사망률 예측 프로젝트 회고

WHY IT MATTERS

정확도는 신뢰가 아니다

천식 사례는 정렬 문제의 한 원형이다. 모델은 우리가 의도한 목표(생존율 예측)를 배우는 듯 보이지만, 실제로는 데이터에 우연히 담긴 대리 신호(집중 치료, 보케, 자, 망막 혈관, 빨간 소방차)를 학습한다. 그 내부를 들여다보지 못하면, 무엇이 잘못됐는지조차 알 수 없고 따라서 고칠 수도 없다. 투명성은 인간이 통제 고리(loop) 안에 남기 위한 전제 조건이다.

해석 가능성 삽화
그림속이 보이는 유리 상자 vs 깜깜한 블랙박스 — 해석 가능성의 차이

핵심 개념

투명성transparency
모델 내부에서 무슨 일이 일어나는지, 왜 그렇게 작동하는지 이해하는 능력. 정확성만큼 안전성에 필수이며, 이 분야의 가장 명확한 우선순위로 부상했다.
블랙박스black box
입출력은 보이나 내부 작동을 들여다볼 수 없는 모델(특히 대형 신경망). '가장 정확한 모델이 가장 불투명하다'는 역설의 핵심.
해석가능성interpretability
모델의 결정을 사람이 이해할 수 있는 정도. Been Kim은 이것이 본질적으로 인간적·간학문적 문제이며 실제 인간 연구로 검증해야 한다고 강조한다.
규칙 기반 모델rule-based model
'if x then y' 규칙 목록 형태의 가장 해석 쉬운 모델. 천식 규칙을 명시적으로 드러냈으나, 신경망이 학습한 다른 위험은 못 잡는다.
현저성saliency
이미지의 어느 부분이 분류에 중요했는지 보여주는 '열지도'. 모델이 어디를 보는지 알려주지만, 보케·자 탐지기 같은 허술한 단서를 적발하는 데 그칠 수도 있다.
특징 시각화feature visualization
망의 중간 활성화나 범주를 이미지로 되돌려 보는 기법(디컨볼루션·DeepDream). 모델이 무엇을 '보는지' 드러내 훈련 결함을 적발한다.
TCAVTesting with Concept Activation Vectors
인간이 쓰는 개념(개념 활성화 벡터)으로 망 내부를 검사하는 방법. '설명이 사용자의 언어로 말한다'는 이점으로 편향을 정량화한다.

The Alignment Problem · Brian Christian