정렬 문제← 목차
I · Prophecy/예측
01

Representation

표현

예시로부터 배우는 힘은 곧 데이터에 종속되는 약점이다 — 모델이 세계를 어떻게 표현하느냐가 누가 공정하게 대표되느냐를 결정한다.

편향단어 임베딩대표성
표현 웹툰 삽화
그림비트가 세상을 찍지만, 어떤 얼굴은 흐리게 담긴다

예측의 출발점 · REPRESENTATION

1958년 퍼셉트론(perceptron)에서 2012년 AlexNet까지 — 기계학습의 역사는 “예시로부터 무엇이든 배울 수 있다”는 약속의 역사다. 그러나 그 약속에는 거울상의 약점이 붙어 있다. 무엇이든 배운다는 것은, 곧 주어진 데이터에 전적으로 종속된다는 뜻이기도 하다.

AlexNet은 65만 개의 인공 뉴런과 6,000만 개의 가중치로 이미지를 분류하며 2위와 두 배 가까운 정확도 차이로 우승했다. 하지만 같은 종류의 시스템이 2015년 구글 포토(Google Photos)에서 흑인 사용자의 사진을 고릴라로 분류하는 사고를 냈다. 악의적인 알고리즘이라서가 아니라, 학습 데이터와 분류 체계가 현실의 다양성을 충분히 담지 못했기 때문이다.

저자는 이를 사진 기술의 셜리 카드(Shirley card)에 빗댄다. 필름 색보정이 오랫동안 백인 피부를 기준으로 맞춰졌듯, 기계학습 모델도 보이지 않는 기준 집단을 중심으로 조율될 수 있다. 그래서 이 장의 제목 representation은 두 가지를 동시에 가리킨다 — 모델이 세계를 어떻게 표현하는가, 그리고 그 안에 누가 대표되는가.

65만AlexNet의 인공 뉴런 수 · 8층 · 6,000만 가중치
2위와의 오류율 격차 (2012 ImageNet)

THE DISTRIBUTIONAL HYPOTHESIS

단어를 좌표로 바꾸기

단어 임베딩(word embeddings)은 “비슷한 맥락에 등장하는 단어는 비슷한 의미”라는 분포 가설(distributional hypothesis)에 기댄다. 비결은 의외로 단순하다 — 중심 단어로 그 이웃 단어를 맞히도록 작은 신경망의 가중치를 조금씩 고치는 것(skip-gram)이다.

은닉층을 2차원으로 두면 각 단어의 가중치가 곧 평면의 좌표가 된다. 아래에서 8개 단어짜리 작은 말뭉치로 직접 학습시켜 보자. 아무 좌표도 정해주지 않았는데, 함께 쓰인 단어끼리 모이며 구조가 저절로 떠오른다.

WORD2VEC · skip-gram 학습2D 임베딩이 자라는 과정
epoch 0 / 220
hemankingdoctorshewomanqueennurse

은닉 가중치 W₁

he
man
king
doctor
she
woman
queen
nurse
d1d2
손실(loss) 0.000

처음엔 단어들이 무작위로 흩어져 있다. ▶ 자동 학습을 눌러 ‘중심 단어로 이웃을 맞히기’를 반복시켜 보자.

‘중심 단어 → 이웃 단어 맞히기’를 반복하면 손실(loss)이 줄고, 함께 등장한 단어끼리 평면에서 모입니다. king↔queen은 가깝게, doctor↔nurse도 가깝게, 그리고 성별이 좌우 축으로 갈립니다. 설명을 위해 8단어로 축소했지만 실제 skip-gram(softmax) 학습이 브라우저에서 돕니다. (오픈소스 wevi에서 영감)

THE DARK SIDE OF EMBEDDINGS

그리고 편향까지 함께

이렇게 통계로 빚어진 공간에서는 의미가 방향을 갖는다. king − man + woman ≈ queen 같은 유추가 벡터 산술로 풀린다. 문제는 이 공간이 사회의 언어를 통째로 압축한다는 것이다 — 같은 산술로 doctor를 여성화하면 nurse가, programmerhomemaker가 튀어나온다. 직접 확인해 보자.

WORD EMBEDDING · 유추 벡터 연산he : she :: ?
he : she ::: ?
← 남성-연관여성-연관 →heshekingqueendoctornurse ← 답programmerhomemakersurgeonreceptionist

모델의 답 = nurse

모델은 명령을 어긴 게 아니라, 학습한 텍스트 속 사회적 고정관념을 충실히 재현했다. doctornurse.

버튼으로 직업 단어를 골라 he→she 방향의 성별 벡터를 더해 보세요. 모델은 가장 가까운 단어를 답으로 내놓습니다. king→queen은 정당하지만 doctor→nurse는 데이터에 새겨진 고정관념입니다. 좌표는 설명을 위해 단순화한 예시입니다.

디바이어싱(debiasing) 기법은 이 성별 방향을 찾아 직업 단어들에서 빼낸다. 한 연구는 이렇게 고정관념적 유추의 비율을 19%에서 6%로 낮췄다. 토글을 켜 보면 유추가 직업 자체로 돌아오는 걸 볼 수 있다. 그러나 저자가 강조하듯 그것은 단순한 삭제가 아니다. 성별·인종·사회적 의미는 언어 전체에 깊게 얽혀 있어, 편향을 지우려다 정당한 관계까지 함께 잃을 수 있다.

모델은 우리가 준 예시의 처분에 맡겨져 있다 — 우리는 기계가 우리를 벗어나게 해주길 바랐던 바로 그 편향을, 오히려 학습하고 증폭시킬 위험을 안는다.

1장 Representation
단어 임베딩 편향 삽화
그림단어 별자리 속에서 '성별 축'을 당기자 두 단어가 어긋난다 — 임베딩에 새겨진 편향

핵심 개념

표현 / 대표representation
데이터와 특징이 세계를 어떻게 부호화하는가, 그리고 그 안에 누가 포함·누락되는가. 기술적 표현과 사회적 대표가 한 단어로 묶인다.
분포 가설distributional hypothesis
비슷한 맥락에 나타나는 단어는 비슷한 의미를 가진다는 가정. 단어 임베딩의 토대.
단어 임베딩word embeddings
단어를 벡터 공간의 점으로 바꿔 의미 관계를 방향과 거리로 포착한 표현. 의미와 함께 편향도 압축된다.
디바이어싱debiasing
임베딩에서 성별 등 특정 방향을 찾아 제거하는 기법. 단순 삭제가 아니며 정당한 관계까지 훼손할 수 있다.

The Alignment Problem · Brian Christian