I · Prophecy/예측

Fairness

공정성

COMPAS 논쟁이 드러낸 진실 — 그럴듯한 공정성 정의들은 기저율이 다른 한 수학적으로 동시에 만족될 수 없다.

COMPAS보정불가능성

공정성 웹툰 삽화 — 그림비트가 정의의 저울을 잡지만, 완벽한 균형은 없다

예측이라는 약속 · FAIRNESS

인간의 변덕스러운 판단을 수치 모델로 대체하려는 시도는 새로운 것이 아니다. 그것은 1927년 일리노이 가석방 위원회까지 거슬러 올라가는 거의 한 세기짜리 운동이며, 오늘날의 알고리즘 위험 평가(risk assessment)는 어니스트 버지스(Ernest Burgess)의 가석방 예측의 직계 후손이다.

1927년, 일리노이 가석방 위원회는 시카고 사회학자 어니스트 버지스에게 가석방자의 “성공 또는 실패”를 예측하는 요인이 있는지 조사를 맡겼다. 그는 약 3,000명의 데이터를 모았다. 강한 직업 이력에 농촌 배경을 가진 자들의 가석방 위반율은 주 평균의 절반, “범죄 지하세계”에 살며 오래 복역한 자들은 주 평균의 두 배였다. 버지스는 가석방 대상자별 “요약 시트”를 만들자고 제안했다 — 단, 예측은 개별 사례에서 절대적이지 않고 “평균의 법칙”에 따른다는 단서를 달았다.

이 아이디어는 컴퓨터 시대를 만나 폭발했다. 통계학자 팀 브레넌(Tim Brennan)과 데이브 웰스(Dave Wells)는 회사 노스포인트(Northpointe)를 세우고 1998년 COMPAS를 개발했다 — 나이·범죄 이력 등의 가중 선형 결합(weighted linear combination)으로 폭력 재범·비폭력 재범·법정 불출석을 예측하는 도구다. 가석방 결정에 통계 모델을 쓰는 주는 빠르게 늘었고, 도구를 쓰지 않는 것이 오히려 이상해졌다.

그러던 2016년 5월, 비영리 매체 ProPublica의 줄리아 앵윈(Julia Angwin)이 “Machine Bias”를 보도했다. 플로리다 브로워드 카운티(Broward County)에서 2013~2014년에 부여된 18,000건의 COMPAS 점수를 실제 범죄 기록과 연결한 결과였다. 흑·백 피고 모두 재범 예측 정확도는 61%로 같았다. 그러나 틀리는 방식이 극명히 달랐다 — 재범하지 않은 흑인을 고위험으로 분류할 가능성이 두 배, 재범한 백인을 저위험으로 놓칠 가능성이 두 배였다.

4→26가석방에 통계 모델을 쓴 주 · 1980년 4개 → 2000년 26개

18,000ProPublica가 분석한 브로워드 카운티 COMPAS 점수 (2013~14)

61%흑·백 피고 모두 동일했던 재범 예측 정확도

THE IMPOSSIBILITY OF FAIRNESS

모든 것을 다 가질 수는 없다

Northpointe는 반박했다. COMPAS는 보정(calibration)되어 있다 — 같은 위험 점수는 인종과 무관하게 같은 의미를 갖는다(“1은 1, 5는 5, 10은 10”). 정확도도 동등하다. 따라서 도구가 편향될 수는 수학적으로 불가능하다는 논리였다. ProPublica는 오류의 종류(type)를, Northpointe는 오류의 비율(rate)과 보정을 강조했다. 어느 통계가 옳은가?

답은 이론 컴퓨터과학에서 왔다. 아래 슬라이더로 직접 확인해 보자. 두 집단은 같은 점수 점수별 실제 재범 확률을 공유하지만(보정은 항상 충족), 점수 분포가 달라 실제 재범률(기저율, base rate)이 다르다. 단 하나의 임계값을 움직이며 두 집단의 위양성률·위음성률을 동시에 맞춰 보라.

◆ COMPAS · 공정성 불가능성threshold slider

위험 점수 임계값 (threshold)≥ 6 → 고위험

[A] 집단 A · 실제 재범률(base rate) 41%

[B] 집단 B · 실제 재범률(base rate) 27%

■ 실제 재범자 (집단색)□ 비재범자임계값 이상 = 고위험 분류

집단 A

TP · 재범·고위험275

▲ FP · 비재범·고위험125

▲ FN · 재범·저위험132

TN · 비재범·저위험468

FPR 21%FNR 32%

집단 B

TP · 재범·고위험140

▲ FP · 비재범·고위험66

▲ FN · 재범·저위험134

TN · 비재범·저위험660

FPR 9%FNR 49%

정렬 · 보정 (calibration)같은 점수 → 같은 실제 재범률. 점수별 재범 확률 P(s)를 두 집단이 공유하도록 설계했으므로 임계값과 무관하게 항상 충족된다.

어긋남 · 위양성률 동등 (equal FPR)두 집단의 FPR이 21% vs 9% (차이 12%). 어긋남.

어긋남 · 위음성률 동등 (equal FNR)두 집단의 FNR이 32% vs 49% (차이 16%). 어긋남.

임계값을 1~10 어디로 옮겨도 보정을 지키는 한 위양성률과 위음성률을 두 집단에서 동시에 같게 만들 수 없다. 기저율이 다르기 때문이다 — 이것이 클라인버그·츌데초바의 불가능성(impossibility) 정리다.

점수 ≥ 임계값이면 “고위험”으로 분류됩니다. 점수별 실제 재범 확률을 두 집단이 공유하므로 보정은 늘 만족되지만, 기저율(A 약 41% · B 약 27%)이 다른 탓에 FPR과 FNR을 두 집단에서 동시에 같게 만드는 임계값은 (모두 고위험·모두 저위험으로 모는 양 극단을 빼면) 존재하지 않습니다. 각 지표는 “정렬 / 어긋남” 텍스트와 마커로 표시되며, 전원을 같은 판정으로 모는 극단 구간(임계값 1)은 분류가 의미를 잃으므로 “무의미”로 비활성 표시됩니다. 분포는 설명을 위해 단순화한 예시입니다.

존 클라인버그(Jon Kleinberg)·센딜 멀레이너선(Sendhil Mullainathan), 알렉산드라 츌데초바(Alexandra Chouldechova), 샘 코벳-데이비스(Sam Corbett-Davies) — 세 곳의 연구자가 거의 동시에 같은 결론에 도달했다. 두 집단의 기저율이 정확히 같은 세계에서만 ProPublica와 Northpointe의 기준을 동시에 만족할 수 있고, 그렇지 않으면 불가능하다. 클라인버그의 말처럼 이것은 머신러닝과도 형사사법과도 무관하다 — 단지 두 집단의 기저율이 다를 때 위험 추정에 관한 사실일 뿐이다.

함의는 무겁다. 어떤 모델도 모든 바람직한 기준을 동시에 만족할 수 없다면, 어떤 위험 평가 도구에 대해서든 “편향”이라 부를 헤드라인은 반드시 찾아낼 수 있다. 이 불가능성은 알고리즘뿐 아니라 인간 판사에게도 똑같이 적용된다. 따라서 공정성은 순수한 기술적 최적화 문제가 아니라 가치 선택과 정책·도덕의 문제다 — 어떤 공정성을 어느 영역에서 우선할지 인간이 명시적으로 결정해야 한다. 위양성률을 균등화하려면 인종별로 다른 기준을 적용해야 하는데, 이는 수정헌법 제14조 평등보호조항을 위반할 소지가 크다.

그러니 모든 것을 다 가질 수는 없다.
So you just can't have it all.
— Alexandra Chouldechova

그리고 더 근본적인 질문이 남는다. 설령 공정성 정의를 정한다 해도, 모델이 측정하는 것은 우리가 원하는 것이 아니다. 흔히 “재범(recidivism)을 예측한다”고 말하지만, 학습 데이터가 담는 것은 재범이 아니라 재체포·재유죄판결이다. 크리스티안 럼(Kristian Lum)과 윌리엄 아이작(William Isaac)의 말처럼 “예측 치안은 미래 범죄가 아니라 미래 치안을 예측한다.” 선택 편향이 확증 편향을 만나, 시스템은 예측하려던 현실을 스스로 조각해낸다.

공정성 오류율 삽화 — 그림사람들을 고·저위험으로 분류하는 비트 — 기저율이 다르면 오류율이 어긋난다

핵심 개념

보정calibration: 같은 위험 점수가 집단과 무관하게 같은 실제 재범 확률을 갖는 성질. Northpointe·브레넌이 공정성의 핵심으로 주장했고, 포기하면 점수가 의미를 잃는다.
위양성률 / 위음성률false positive / false negative rate: 재범하지 않을 사람을 고위험으로(FPR), 재범할 사람을 저위험으로(FNR) 잘못 분류하는 비율. ProPublica가 인종별로 약 두 배 어긋남을 지적한 지표.
기저율base rate / prevalence: 한 집단의 실제 재범 빈도. 두 집단의 기저율이 같을 때만 모든 공정성 정의가 동시에 충족될 수 있다 — 불가능성의 핵심 조건.
불가능성impossibility: 기저율이 다르면 보정과 오류율 균등화를 동시에 만족할 수 없다는 정리. 머신러닝·형사사법과 무관한 위험 추정의 일반 수학적 사실이며 인간 판단에도 적용된다.
맹목성을 통한 공정성fairness through blindness: 보호 속성을 입력에서 빼면 공정해진다는 통념. 중복 인코딩(redundant encoding) 때문에 작동하지 않으며, 오히려 편향 측정·완화를 불가능하게 한다. 하르트가 가장 견고하게 틀린 사실로 꼽았다.
예측 vs. 개입prediction vs. intervention: 정확한 예측이 좋은 행동·정책으로 전환되지 않으면 무의미하며, 때로 역효과를 낸다. 시카고 히트 리스트는 평균보다 살인 피해 233배였지만 명단 내 0.7%만 실제 피해를 입었다.

The Alignment Problem · Brian Christian