Transparency
투명성
가장 정확한 모델일수록 들여다볼 수 없다. 높은 정확도는 충분하지 않다 — 맞는 답을 잘못된 이유로 낼 수 있기에.

예측의 대가 · TRANSPARENCY
가장 강력한 모델은 대체로 가장 이해하기 어렵고, 가장 이해하기 쉬운 모델은 대체로 가장 부정확하다. 이 한 문장의 역설 앞에서, 우리는 정확도와 투명성 중 무엇을 신뢰할지 결정해야 한다. 1990년대 중반의 어느 폐렴 프로젝트는 그 선택이 사람의 생명이 걸린 문제임을 보여주었다.
카네기 멜런(Carnegie Mellon)의 대학원생 Rich Caruana는 약 1만 5천 명의 폐렴(pneumonia) 환자 데이터로 여러 모델을 맞붙였다. 당시 폐렴은 미국의 6번째 사망 원인이었고 환자의 약 10%가 사망했기에, 고위험 환자를 가려 입원시키는 일은 곧 생명 구조였다. 그가 맡은 신경망이 로지스틱 회귀 같은 전통 기법을 큰 차이로 이겼다. 병원들은 곧장 그것을 배포하려 했다.
그러나 Caruana는 거부했다. 같은 데이터로 규칙 기반(rule-based) 모델을 학습시키던 Richard Ambrosino가 이상한 규칙을 발견했기 때문이다: “천식 병력이 있으면 저위험이므로 외래로 처리하라.” 의사들에게 묻자 충격적인 답이 돌아왔다 — 그것은 데이터 속의 진짜 패턴이었다. 천식 환자는 위험하다고 여겨 곧바로 입원·중환자실에 배치됐고, 그 집중 치료 덕분에 사망률이 오히려 낮았던 것이다.
상관(correlation)은 참이었지만 모델이 내린 처방(외래)은 정반대였다. 즉 천식 환자를 저위험으로 만든 바로 그 치료를, 모델은 그 환자에게서 박탈하려 했다. 규칙 모델에서는 이 규칙이 그대로 보였기에 잡아낼 수 있었다. 문제는 신경망도 같은 논리를 학습했지만 그것을 드러내지 않는다는 점이다. 두 모델을 직접 비교해 보자.
규칙이 모두 보인다. 의심스러운 규칙(⚠)을 눌러 검토해 보세요 — 통계적으로는 참이지만 인과적으로는 치명적인 규칙이 숨어 있다.
해석가능한 모델은 약간 덜 정확하다(83%). 그러나 그 대가로 위험을 눈으로 볼 수 있다. 결국 피츠버그 병원들은 신경망이 큰 차이로 이긴 더 단순한 모델을 배포했다.
위는 미리 정해둔 규칙이었다. 이번엔 데이터에서 진짜로 학습시켜 보자. 천식 환자가 (더 집중적인 치료 덕에) 오히려 더 자주 생존한 가상의 폐렴 데이터에 로지스틱 회귀를 학습시키면, 경사하강법이 천식 계수를 음수로— ‘천식 → 위험 낮춤’으로 — 끌어내린다. 그리고 이 모델은 해석 가능하기에, 우리는 그 위험한 계수를 막대에서 곧장 읽어 잡아낼 수 있다.
학습된 계수 · LEARNED COEFFICIENTS (사망 위험)
정확도 29%· 환자 80명 · 특징 6개
▶ 학습으로 로지스틱 회귀를 학습시키세요. 계수가 데이터에서 자라납니다.
애초에 복잡한 모델이 꼭 필요했을까? 임상 대 통계 예측(clinical versus statistical prediction)의 오랜 전통은 그렇지 않다고 답한다. 1940년대 Ted Sarbin은 고교 석차와 적성검사 점수 두 가지만 쓴 단순 선형 회귀가 8쪽 서류와 면담까지 동원한 임상심리학자와 차이가 없음을 보였고, Paul Meehl(1954)은 거의 100개 영역 중 인간이 우위를 보인 것이 단 6개뿐임을 정리했다. Robyn Dawes는 한 걸음 더 나아갔다 — 무작위 가중치 모델 조차 전문가만큼, 동일 가중치 모델은 그 이상으로 정확했다.
Dawes의 결론은 유명하다: 요령은 어떤 변수를 볼지 알고, 그 다음 더하는 법을 아는 것이다. 인간 전문성은 정보를 통합하는 데가 아니라 무엇을 볼지 고르는 데 있었다. 듀크의 Cynthia Rudin은 이 정신을 21세기로 잇는다. COMPAS만큼 정확하면서 한 문장에 담기는 재범 예측 모델, 그리고 SLIM·Bayesian Rule Lists로 데이터로부터 최적의 단순 모델을 도출한다. 의학의 심장질환 점수표가 어디서 왔냐는 물음에 그가 외친 답은 통렬하다 — “그들이 지어냈다!(They made it up!)”
그러나 원시 픽셀·음성·언어를 다루는 모델은 단순할 수가 없다. 이때 우리는 블랙박스 속을 사후에 들여다봐야 한다. 현저성(saliency)은 모델이 어디를 보는지 열지도로 보여주지만, 동물 대신 흐릿한 배경을 본 “보케(bokeh) 탐지기”나, 의료 이미지의 자(ruler)를 악성으로 학습한 피부암 모델처럼 허술한 단서에 매달리기도 한다. 특징 시각화(feature visualization)는 더 깊이 들어가 망이 무엇을 ‘보는지’ 보여주지만(덤벨을 떠올리면 팔이 함께 나타난다), TCAV로 개념 수준까지 가도 한계는 남는다. Vaughan의 연구는 더 투명한 모델에서 사람이 오히려 실수를 덜 알아챌 수 있음을 보였다.
신경망을 출하하지 않은 게 천만다행이었다.
Thank God we did not ship that neural net.
— Rich Caruana · 폐렴 사망률 예측 프로젝트 회고
WHY IT MATTERS
정확도는 신뢰가 아니다
천식 사례는 정렬 문제의 한 원형이다. 모델은 우리가 의도한 목표(생존율 예측)를 배우는 듯 보이지만, 실제로는 데이터에 우연히 담긴 대리 신호(집중 치료, 보케, 자, 망막 혈관, 빨간 소방차)를 학습한다. 그 내부를 들여다보지 못하면, 무엇이 잘못됐는지조차 알 수 없고 따라서 고칠 수도 없다. 투명성은 인간이 통제 고리(loop) 안에 남기 위한 전제 조건이다.

핵심 개념
- 투명성transparency
- 모델 내부에서 무슨 일이 일어나는지, 왜 그렇게 작동하는지 이해하는 능력. 정확성만큼 안전성에 필수이며, 이 분야의 가장 명확한 우선순위로 부상했다.
- 블랙박스black box
- 입출력은 보이나 내부 작동을 들여다볼 수 없는 모델(특히 대형 신경망). '가장 정확한 모델이 가장 불투명하다'는 역설의 핵심.
- 해석가능성interpretability
- 모델의 결정을 사람이 이해할 수 있는 정도. Been Kim은 이것이 본질적으로 인간적·간학문적 문제이며 실제 인간 연구로 검증해야 한다고 강조한다.
- 규칙 기반 모델rule-based model
- 'if x then y' 규칙 목록 형태의 가장 해석 쉬운 모델. 천식 규칙을 명시적으로 드러냈으나, 신경망이 학습한 다른 위험은 못 잡는다.
- 현저성saliency
- 이미지의 어느 부분이 분류에 중요했는지 보여주는 '열지도'. 모델이 어디를 보는지 알려주지만, 보케·자 탐지기 같은 허술한 단서를 적발하는 데 그칠 수도 있다.
- 특징 시각화feature visualization
- 망의 중간 활성화나 범주를 이미지로 되돌려 보는 기법(디컨볼루션·DeepDream). 모델이 무엇을 '보는지' 드러내 훈련 결함을 적발한다.
- TCAVTesting with Concept Activation Vectors
- 인간이 쓰는 개념(개념 활성화 벡터)으로 망 내부를 검사하는 방법. '설명이 사용자의 언어로 말한다'는 이점으로 편향을 정량화한다.
The Alignment Problem · Brian Christian