미분으로 AI를 ‘참교육’하는 이유: 헛소리의 정체, 경사의 힘, 그리고 GPU의 속도

헛소리는 ‘의견’이 아니라 통계적 완성이다

가끔 AI가 그럴듯한 표정으로 아무 말 대잔치를 한다. 재미있게도 그건 “생각이 짧아서”가 아니라 “원래 그렇게 만들어져서”에 가깝다. 오늘날 대다수 텍스트 생성 AI는 세계의 진실을 직접 조회해 답을 꺼내는 기계라기보다, 주어진 문맥 다음에 올 토큰(token)을 확률로 예측하는 기계에 가깝다. 이 구조를 이해하면, 왜 멀쩡한 문장과 함께 헛소리가 섞여 나오는지(그리고 왜 그게 가끔 ‘확신에 찬 헛소리’인지)가 한 줄로 정리된다. “그럴듯함”을 최적화하고, “사실”은 보통 부수효과로 얻는다.

여기서 말하는 토큰은 우리가 초등학교 때 배운 ‘단어’와 꼭 일치하지 않는다. 실제 시스템에서는 글자를 잘게 쪼개거나(혹은 자주 붙는 글자 조각을 합쳐) 단어보다 작은 조각 단위로 다루는 경우가 많다. 대표적으로 BPE(Byte-Pair Encoding) 같은 방법이 널리 쓰이며, 큰 언어 모델에서 토큰화를 “첫 단계”로 놓는다는 설명이 교과서급 자료에도 박혀 있다.

이제 핵심 장면으로 들어가 보자. 모델은 문맥을 받아 내부 계산을 거쳐 다음 토큰 후보 전체에 대한 확률분포를 만든다. 그리고 그 분포에서 “어떤 전략으로” 하나를 고른다. 확률이 제일 높은 것만 고르는 탐욕적 선택도 있고, 확률분포에서 뽑는 샘플링도 있고, 상위 확률 질량만 잘라서(popular 꼬리의 불량함을 피하려고) 그 안에서 샘플링하는 top‑p(=nucleus) 같은 방식도 있다. 이미 같은 모델이라도 디코딩 전략에 따라 문장이 심하게 밋밋해지거나, 반복에 빠지거나, 반대로 널뛰며 헛소리가 증가할 수 있다는 연구가 있다. 즉 헛소리는 “모델이 나빠서”만이 아니라, 모델+디코딩의 합성 결과로도 튀어나온다.

그럼 “사실검증”은 어디서 하냐고 묻고 싶을 텐데, 바로 그 지점이 헛소리의 탄생지다. 기본 형태의 언어 모델은 내부적으로 “지식 DB에 접속해 사실을 확인”하는 기능이 내장돼 있지 않다. 학습 데이터에 자주 등장한 패턴을 바탕으로 “다음에 그럴듯하게 이어질 말”을 고르기 때문에, 질문이 데이터 분포의 경계 바깥으로 나가거나(희귀한 사건, 최신 정보, 특정 문서 내부 지식 등), 문맥이 애매하거나, 답을 꾸며내는 쪽이 언어적으로 더 매끈해 보이면, 유창함이 사실보다 이기는 순간이 생긴다. 이 현상을 자연어 생성 전반의 중요한 한계로 정리한 서베이들도 “그럴듯하지만 비사실적인 내용”을 핵심 문제로 잡는다.

그래서 AI의 헛소리를 단순히 “거짓말”이라고 부르면 반쯤 맞고 반쯤 틀린다. 거짓말은 보통 현실을 알고 숨기는 쪽에 가깝지만, 여기서는 애초에 목적이 “현실을 맞히기”가 아니라 “문장을 자연스럽게 완성하기”인 경우가 많다. 현실을 맞히는 능력은 그 목적을 열심히 최적화하다가 겸사겸사 얻는 능력인 셈이다.

미분이 들어오면: 모델은 ‘대답’을 배우는 게 아니라 ‘벌점’을 피한다

이제 제목의 주인공인 “미분”이 등장한다. 사람들이 “AI 학습의 핵심은 미분”이라고 말하는 이유는 간단하다. 학습은 결국 어떤 숫자(파라미터)를 바꿔서 손실(loss)을 줄이는 최적화 문제로 귀결되고, 그 손실을 줄이려면 “어느 방향으로 숫자를 움직이면 손실이 줄어드는지”를 알아야 한다. 그 방향 정보를 주는 게 기울기(gradient)이고, 기울기는 미분으로 계산한다.

언어 모델을 아주 단순화해 말하면, “정답 다음 토큰에 높은 확률을 주면 상을 주고, 낮은 확률을 주면 벌점을 주는 게임”이다. 이때 벌점의 전형이 (정답에 대한) 음의 로그우도(negative log-likelihood) 또는 크로스엔트로피(cross‑entropy) 같은 형태다. 학습은 그 벌점의 기대값을 최소화하는 방향으로 파라미터를 계속 업데이트한다. 고전적인 신경 언어 모델 논문에서도 문장 확률을 조건부 확률의 곱으로 쪼개고(다음 단어 예측으로 바꾸고), 로그우도를 최대화하도록 파라미터를 “반복적으로” 조정한다고 설명한다.

여기서 미분이 왜 “참교육”처럼 느껴지냐면, 과정이 꽤 물리적이기 때문이다. 모델이 어떤 입력에서 헛소리를 했다고 치자. 그 헛소리를 ‘나쁜 결과’로 반영하는 손실 함수를 정의하면, 손실은 커진다. 그러면 미분이 “이 손실을 줄이려면 너의 수많은 연결 가중치 중 무엇을 얼마나 바꿔야 하는지”를 숫자로 알려준다. 역전파(backpropagation)는 연쇄법칙(chain rule)을 이용해 출력 쪽에서 입력 쪽으로 미분값을 전파하면서 그 “책임 소재”를 나누는 절차다. 고전적 역전파 설명에서도 오차를 경사하강으로 줄이려면 각 가중치에 대한 편미분이 필요하고, 이를 두 번의 패스(앞으로 한 번, 뒤로 한 번)로 계산하며, 연쇄법칙을 명시적으로 사용한다고 적는다.

그다음은 업데이트다. 가장 교과서적인 형태는 “가중치를 기울기 반대 방향으로 조금 옮긴다”이다. 실제 대규모 학습에서는 데이터 전체를 한 번에 쓰기 어렵기 때문에 미니배치로 쪼개 확률적으로(SGD) 업데이트하고, 모멘텀이나 적응적 학습률 같은 기법을 덧댄다. 예컨대 Adam은 확률적 목적함수에 대한 일차(gradient 기반) 최적화 방법으로, 기울기의 모멘트 추정치를 이용해 학습을 안정화하는 계열로 널리 쓰인다.

이 대목에서 중요한 포인트 하나. 미분은 “정답으로 가는 길”이 아니라 “벌점을 줄이는 길”을 알려준다. 벌점 설계가 빈약하면, 미분은 빈약함을 아주 성실하게 최적화한다. 즉, 미분이 강력하다는 말은 “학습이 강력하다”는 말이지, “진실을 보장한다”는 말은 아니다. 그래서 같은 ‘미분 기반 학습’이라도 데이터와 목표가 달라지면 성격이 확 바뀐다.

‘나는 소년이다’가 만들어지는 순간의 미세한 기계장치

“나는 소년이다” 같은 쉬운 문장을 예로 들어보자. 모델이 만드는 것은 문장 자체가 아니라, 매 스텝마다 “다음 토큰 후보들의 확률분포”다. 그리고 디코더가 그중 하나를 찍는다. 이 과정을 한 토큰씩 반복해 문장이 길어진다. 교재 수준 설명에서도 트랜스포머 기반 자기회귀 언어 모델은 입력 토큰을 받아 네트워크를 통과시키고, 마지막에 unembedding과 softmax를 통해 다음 토큰 분포를 만든다고 정리한다.

문장 생성이 “문법과 문맥을 고려한 확률적 예측”처럼 보이는 이유도 여기 있다. 모델은 문법 규칙표를 들고 있지 않지만, 말뭉치에서 반복적으로 나타난 패턴을 압축해 내부 표현으로 들고 있다. 그래서 “나는” 다음에 올 만한 후보가 “소년”, “학생”, “사람”, “AI” 같은 쪽으로 자연스럽게 걸러지고, 뒤이어 조사와 서술어가 붙는 전형적 흐름을 “그럴듯함”의 관점에서 따라간다. 이때 그럴듯함은 통계적 규칙성으로부터 오고, 그 규칙성은 다음 토큰 예측의 누적(조건부 확률의 곱)으로 모델링할 수 있다는 고전 언어모델 정식화와도 맞닿아 있다.

트랜스포머가 여기서 차지하는 역할은 “문맥을 멀리까지 확장하면서도 계산을 병렬화하기 쉬운 구조”라는 데 있다. 특히 트랜스포머 계산은 토큰별 계산이 독립적인 부분이 많아, 입력 토큰들을 행렬로 묶어 효율적인 행렬곱으로 처리할 수 있다고 설명된다. 즉 문장 생성의 속도와 성능은 “언어 감각”만이 아니라 “선형대수의 대량 처리”와 깊게 연결된다.

그런데 바로 이 지점에서 헛소리가 끼어든다. 모델이 분포를 만들고 디코딩을 하는데, 그 분포의 “꼬리(tail)”에는 확률은 낮지만 가능한 토큰이 무수히 많다. 샘플링을 할 때 이 꼬리를 그대로 두면 문맥과 상관없는 토큰이 튀어나와 전체가 흔들릴 수 있다. 반대로 확률 최대화(탐욕, 빔서치)를 과하게 쓰면 안전하지만 밋밋하거나 반복이 늘어날 수 있다. “가능도(likelihood)로 학습한 훌륭한 모델도, 가능도 자체를 디코딩 목표로 쓰면 이상하게 반복적이고 밋밋해질 수 있다”는 문제 제기는 이 분야에서 꽤 유명한 관찰이다.

즉, 우리가 보는 “한 문장”은 사실 세 층의 합성물이다. (1) 토큰화로 문장이 조각나고, (2) 그 조각들을 바탕으로 확률분포가 계산되며, (3) 디코딩 전략이 그 분포를 현실의 단일 출력으로 잘라낸다. 그리고 헛소리는 이 셋 중 어디서든 생길 수 있다. 특히 서베이 문헌들은 환각(hallucination)의 원인을 데이터, 학습, 추론(디코딩 포함) 등 여러 층으로 나눠 설명하고, 완화 방법도 그 층에 맞춰 다층적으로 정리한다.

‘참교육’의 실제: 목적함수와 데이터가 바뀌면 성격이 바뀐다

그럼 질문으로 돌아가 보자. “AI가 헛소리할 때 미분 수학으로 참교육한다”는 말은 결국 무엇을 뜻하나. 핵심은 이것이다. 헛소리를 비용으로 정의하는 순간, 미분은 그 비용을 줄이는 방향으로 모델을 실제로 바꾼다.

가장 직관적인 형태는 추가 학습이다. 예를 들어 잘못된 답변을 정답 데이터로 교정해 주는 지도 미세조정(fine-tuning)을 하면, 그 교정이 ‘정답에 더 높은 확률을 주게’ 만드는 학습 신호가 된다. “정답에 확률을 더 주는 방향”은 다시 벌점(크로스엔트로피/로그우도)와 미분으로 연결된다. 학습은 결국 “정답처럼 말하기”를 직접 가르친다기보다, “정답에 높은 확률을 주지 않으면 아프다”를 반복해서 주입하는 구조다.

다만 여기엔 늘 함정이 있다. 어떤 데이터를 ‘정답’이라고 둘지, 무엇을 ‘헛소리’라고 벌줄지의 설계가 어렵다. 그래서 최근 계열의 정렬(alignment) 논의는 단순 정확도보다 “사람이 선호하는 답변 형태”나 “불확실할 때는 불확실하다고 말하기” 같은 기준을 도입하려 한다. 그리고 이런 정렬을 위한 기법들(예: 지시 따르기, 선호 기반 조정)이 별도의 장으로 다뤄질 정도로 커졌다. 트랜스포머/LLM 교재도 사후 단계로 인간 선호와의 정렬을 별도 주제로 분리해 소개한다.

또 다른 갈래는 “모델이 모르는데 아는 척할 수밖에 없는 상황” 자체를 줄이는 쪽이다. 대표적으로 검색 기반 보강(RAG)처럼 외부 근거를 붙이는 방식이 있다. 하지만 이 또한 만능은 아니다. LLM 환각 서베이들은 RAG가 환각을 완화하는 중요한 축이면서도 한계와 새로운 실패 모드가 있다고 정리한다. 즉, 미분으로 모델의 성격을 바꿔도 “근거 없는 유창함”이라는 유혹은 완전히 사라지지 않는다.

정리하면 이렇다. 미분은 AI를 혼내는 회초리가 아니라, 혼나는 규칙을 숫자로 정의했을 때만 작동하는 자동 회초리다. 규칙을 어떻게 쓰느냐에 따라 “정확한 AI”도 만들고 “자신감 넘치는 AI”도 만든다. 헛소리 문제를 잡는다는 것은, 미분 그 자체보다 “무엇에 미분을 걸어 어떤 비용을 최소화할지”를 정교하게 설계하는 일에 가깝다.

GPU와 HBM이 ‘학습 속도’의 숨은 주주가 되는 이유

이제 하드웨어 이야기가 왜 갑자기 튀어나오는지 연결해 보자. 미분이 학습의 엔진이라면, GPU와 HBM은 그 엔진의 연료 라인이다. 학습은 (데이터를 넣고) 예측하고 (틀린 만큼) 손실을 계산하고 (미분으로) 기울기를 구하고 (가중치를) 업데이트하는 루프다. 이 루프에서 압도적으로 많이 하는 일이 무엇이냐 하면, 깔끔하게 말해 **행렬곱(MMA, Matrix Multiply‑Accumulate)**이다. 트랜스포머는 attention과 feedforward를 포함해 큰 행렬 연산으로 구성되며, 이를 효율적으로 병렬화할 수 있다는 점이 핵심 장점으로도 설명된다.

GPU가 여기서 강한 이유는 바로 그 행렬곱을 미친 듯이 잘하기 때문이다. NVIDIA의 H100 같은 데이터센터 GPU 문서들은 Tensor Core가 행렬 곱‑누산을 가속하고, 트랜스포머 계산을 “dramatically accelerate”하기 위한 Transformer Engine 같은 구성요소를 넣었다고 대놓고 말한다. 이런 가속은 학습·추론 모두에서 “연산량이 큰 트랜스포머”에 최적화된 방향으로 진화해 왔다.

그런데 연산만 빠르면 끝이 아니다. 행렬곱은 데이터를 먹고 산다. 가중치, 활성값, 그래디언트가 메모리에서 오가는데, 이때 병목이 자주 “계산”이 아니라 “메모리 대역폭”으로 넘어간다. 그래서 HBM(High Bandwidth Memory)이 뜬다. 예컨대 H100 SXM5는 80GB HBM3를 탑재하고 메모리 대역폭이 3TB/s를 넘는다고 NVIDIA 기술 블로그가 명시한다. 대규모 모델이 커질수록, 그리고 배치/시퀀스 길이가 커질수록, 이 대역폭이 학습 속도와 직결되는 이유가 여기 있다.

HBM이 왜 “대역폭에 올인한 메모리”인지도 정리돼 있다. 업계 매체들은 HBM3E 같은 세대에서 “스택당 TB/s급” 대역폭을 이야기하면서, 이런 특성이 대역폭을 탐닉하는 워크로드에서 HBM이 왜 인기인지(그리고 비용·제약이 왜 따라오는지)를 설명한다. 또한 HBM 기술이 LLM/생성형 AI 수요에 의해 큰 영향을 받고 있다는 프레젠테이션 자료도 존재한다. 대규모 모델 시대는 결국 “연산”과 “메모리 이동”의 동시 폭발이라서, GPU와 HBM이 같이 스포트라이트를 받을 수밖에 없다.

여기서 이 영상의 맥락도 자연스럽게 보인다. AI를 미분으로 길들이는 이야기가 갑자기 GPU·HBM 이야기로 넘어가는 게 뜬금없어 보여도, 실제로는 한 줄로 연결된다. “미분 기반 최적화”는 엄청난 반복 계산이고, 그 반복 계산의 대부분은 행렬 연산이며, 그 행렬 연산을 먹여 살리는 것이 GPU의 병렬 연산 능력과 HBM의 대역폭이다. 그래서 AI의 발전을 “알고리즘의 진화”로만 보면 반만 보는 셈이고, “미분+행렬곱+메모리 대역폭”이라는 공모 구조로 보면 꽤 많은 일이 한 번에 설명된다.

참고로 이 주제를 말하는 사람이 김정호처럼 시스템/패키징·아키텍처와 AI를 함께 보는 연구자라면(KAIST 전기및전자공학부 프로필에 연구 분야가 그렇게 정리돼 있다), “미분”과 “HBM”을 한 호흡으로 엮는 게 오히려 자연스러운 선택이 된다. AI는 수학으로 움직이고, 수학은 하드웨어로 돈이 된다.

Reference list

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Rumelhart, Hinton, Williams (1986), Learning representations by back-propagating errors (Nature)
https://gwern.net/doc/ai/nn/1986-rumelhart-2.pdf

Bengio et al. (2003), A Neural Probabilistic Language Model (JMLR)
https://jmlr.org/papers/volume3/tmp/bengio03a.pdf

Jurafsky & Martin (2026 draft), Speech and Language Processing (SLP3) main page
https://web.stanford.edu/~jurafsky/slp3/

Jurafsky & Martin (2026 draft), Chapter 2: Words and Tokens
https://web.stanford.edu/~jurafsky/slp3/2.pdf

Jurafsky & Martin (2026 draft), Chapter 8: Transformers
https://web.stanford.edu/~jurafsky/slp3/8.pdf

Goodfellow, Bengio, Courville (Deep Learning book), Chapter 8: Optimization for Training Deep Models
https://www.deeplearningbook.org/contents/optimization.html

Kingma & Ba (2014), Adam: A Method for Stochastic Optimization (arXiv)
https://arxiv.org/abs/1412.6980

Vaswani et al. (2017), Attention Is All You Need (NeurIPS PDF)
https://papers.neurips.cc/paper/7181-attention-is-all-you-need.pdf

Ji et al. (2022/2023), Survey of Hallucination in Natural Language Generation (arXiv HTML mirror)
https://ar5iv.labs.arxiv.org/html/2202.03629

Huang et al. (2023; revised 2024), A Survey on Hallucination in Large Language Models (arXiv)
https://arxiv.org/abs/2311.05232

Holtzman et al. (2019), The Curious Case of Neural Text Degeneration (arXiv)
https://arxiv.org/abs/1904.09751

NVIDIA Technical Blog (2022), NVIDIA Hopper Architecture In-Depth
https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

NVIDIA H100 Hopper Whitepaper (GTC 2022, PDF copy)
https://www.hpctech.co.jp/assets/images/info/catalog/pdf/gtc22-whitepaper-hopper_v1.02.pdf

NVIDIA Docs (2023), Train With Mixed Precision (Tensor Cores, matrix multiply acceleration)
https://docs.nvidia.com/deeplearning/performance/mixed-precision-training/index.html

Embedded.com (2024), High-bandwidth memory (HBM) options for demanding compute
https://www.embedded.com/high-bandwidth-memory-hbm-options-for-demanding-compute/

Greenberg (2024), PDSC2: Introduction to High Bandwidth Memory (HBM) (PDF)
https://files.futurememorystorage.com/proceedings/2024/20240805_PDSC2_Intro_to_HBM_Greenberg.pdf

KAIST EE Professor Profile: Kim, Joungho (김정호)
https://ee.kaist.ac.kr/en/professor/12153/

#51미분으로 AI를 ‘참교육’하는 이유: 헛소리의 정체, 경사의 힘, 그리고 GPU의 속도

AI가 왜 확신에 찬 헛소리를 내뱉는지, 경사하강법이 어떻게 모델을 훈련시키는지, GPU가 왜 필수인지—세 개의 질문을 미분 하나로 연결하면 LLM의 작동 원리가 보인다.