Representation
표현
예시로부터 배우는 힘은 곧 데이터에 종속되는 약점이다 — 모델이 세계를 어떻게 표현하느냐가 누가 공정하게 대표되느냐를 결정한다.

예측의 출발점 · REPRESENTATION
1958년 퍼셉트론(perceptron)에서 2012년 AlexNet까지 — 기계학습의 역사는 “예시로부터 무엇이든 배울 수 있다”는 약속의 역사다. 그러나 그 약속에는 거울상의 약점이 붙어 있다. 무엇이든 배운다는 것은, 곧 주어진 데이터에 전적으로 종속된다는 뜻이기도 하다.
AlexNet은 65만 개의 인공 뉴런과 6,000만 개의 가중치로 이미지를 분류하며 2위와 두 배 가까운 정확도 차이로 우승했다. 하지만 같은 종류의 시스템이 2015년 구글 포토(Google Photos)에서 흑인 사용자의 사진을 고릴라로 분류하는 사고를 냈다. 악의적인 알고리즘이라서가 아니라, 학습 데이터와 분류 체계가 현실의 다양성을 충분히 담지 못했기 때문이다.
저자는 이를 사진 기술의 셜리 카드(Shirley card)에 빗댄다. 필름 색보정이 오랫동안 백인 피부를 기준으로 맞춰졌듯, 기계학습 모델도 보이지 않는 기준 집단을 중심으로 조율될 수 있다. 그래서 이 장의 제목 representation은 두 가지를 동시에 가리킨다 — 모델이 세계를 어떻게 표현하는가, 그리고 그 안에 누가 대표되는가.
THE DISTRIBUTIONAL HYPOTHESIS
단어를 좌표로 바꾸기
단어 임베딩(word embeddings)은 “비슷한 맥락에 등장하는 단어는 비슷한 의미”라는 분포 가설(distributional hypothesis)에 기댄다. 비결은 의외로 단순하다 — 중심 단어로 그 이웃 단어를 맞히도록 작은 신경망의 가중치를 조금씩 고치는 것(skip-gram)이다.
은닉층을 2차원으로 두면 각 단어의 가중치가 곧 평면의 좌표가 된다. 아래에서 8개 단어짜리 작은 말뭉치로 직접 학습시켜 보자. 아무 좌표도 정해주지 않았는데, 함께 쓰인 단어끼리 모이며 구조가 저절로 떠오른다.
은닉 가중치 W₁
처음엔 단어들이 무작위로 흩어져 있다. ▶ 자동 학습을 눌러 ‘중심 단어로 이웃을 맞히기’를 반복시켜 보자.
THE DARK SIDE OF EMBEDDINGS
그리고 편향까지 함께
이렇게 통계로 빚어진 공간에서는 의미가 방향을 갖는다. king − man + woman ≈ queen 같은 유추가 벡터 산술로 풀린다. 문제는 이 공간이 사회의 언어를 통째로 압축한다는 것이다 — 같은 산술로 doctor를 여성화하면 nurse가, programmer는 homemaker가 튀어나온다. 직접 확인해 보자.
모델의 답 = nurse
모델은 명령을 어긴 게 아니라, 학습한 텍스트 속 사회적 고정관념을 충실히 재현했다. doctor → nurse.
디바이어싱(debiasing) 기법은 이 성별 방향을 찾아 직업 단어들에서 빼낸다. 한 연구는 이렇게 고정관념적 유추의 비율을 19%에서 6%로 낮췄다. 토글을 켜 보면 유추가 직업 자체로 돌아오는 걸 볼 수 있다. 그러나 저자가 강조하듯 그것은 단순한 삭제가 아니다. 성별·인종·사회적 의미는 언어 전체에 깊게 얽혀 있어, 편향을 지우려다 정당한 관계까지 함께 잃을 수 있다.
모델은 우리가 준 예시의 처분에 맡겨져 있다 — 우리는 기계가 우리를 벗어나게 해주길 바랐던 바로 그 편향을, 오히려 학습하고 증폭시킬 위험을 안는다.
— 1장 Representation

핵심 개념
- 표현 / 대표representation
- 데이터와 특징이 세계를 어떻게 부호화하는가, 그리고 그 안에 누가 포함·누락되는가. 기술적 표현과 사회적 대표가 한 단어로 묶인다.
- 분포 가설distributional hypothesis
- 비슷한 맥락에 나타나는 단어는 비슷한 의미를 가진다는 가정. 단어 임베딩의 토대.
- 단어 임베딩word embeddings
- 단어를 벡터 공간의 점으로 바꿔 의미 관계를 방향과 거리로 포착한 표현. 의미와 함께 편향도 압축된다.
- 디바이어싱debiasing
- 임베딩에서 성별 등 특정 방향을 찾아 제거하는 기법. 단순 삭제가 아니며 정당한 관계까지 훼손할 수 있다.
The Alignment Problem · Brian Christian