미분이 AI를 움직이고, 헛소리를 만든다

헛소리라는 문제는 모델의 성격에서 시작한다

사람이 “AI가 헛소리한다”라고 말할 때, 보통은 문장이 말은 되는데 사실이 아니거나 근거가 없는 경우를 뜻한다. 최근 연구·산업 쪽에서는 이런 현상을 “그럴듯하지만 거짓인 진술을 생성하는 경향”으로 정의하고, 왜 계속 생기며 어떻게 줄일 수 있는지를 따로 다룬다. OpenAI도 이 현상을 언어모델의 고질적 신뢰성 문제로 분류하면서, “사실처럼 보이는데 틀린 말”이 생성되는 구조를 설명한다.

이런 헛소리는 단순 버그라기보다 학습 방식의 부산물이다. 대규모 언어모델은 전형적으로 “다음 단어(토큰)를 맞히는” 사전학습을 통해 출발한다. 이때 데이터는 엄청나게 많지만, 각 문장·각 주장에 “참/거짓” 라벨이 달려 있는 형태가 아니다. 모델은 ‘팩트 체크를 통과한 문장’만 배우는 게 아니라, 인터넷에 존재하는 다양한 문장 패턴 전체의 분포를 근사한다. 그러니 문법·맞춤법·괄호 같은 “규칙이 자주 반복되는 패턴”은 잘 맞히는 반면, 드물고 임의성이 큰 사실 정보는 그럴듯하게 추정하다가 틀릴 수 있다.

여기에 시험 채점 방식(평가 방식)도 한몫한다. “모르겠으면 모르겠다”가 더 정직한데, 정확도만 보는 리더보드·벤치마크 문화에서는 대답을 회피하면 점수가 박살 난다. 그러면 모델 개발은 자연스럽게 “확신이 없더라도 찍어서 맞히는 쪽”으로 유도된다. 2025년 공개된 분석은 이 현상을 말 그대로 ‘시험에 맞춰 가르치는(teaching to the test)’ 문제로 본다. 즉, 헛소리는 모델이 멍청해서만이 아니라, 학습·평가 파이프라인이 “추측을 보상하는 방향”으로 설계되는 순간 더 끈질어질 수 있다는 이야기다.

미분은 오차를 “어디를 건드릴지”로 바꾸는 기술이다

그럼 제목에 붙는 “미분으로 참교육”은 정확히 무슨 뜻일까. 핵심은 간단하다. 틀린 결과를 보고, “어떤 내부 변수(가중치)를 얼마나 바꾸면 덜 틀리게 되는가”를 계산하는 도구가 미분이라는 뜻이다.

신경망 학습은 대체로 이렇게 굴러간다. 먼저 모델이 어떤 입력을 받고 출력(예: 다음 토큰 확률)을 낸다. 그 다음 “정답”과의 차이를 수치로 재는 비용함수(손실함수)를 만든다. 그 다음이 미분의 시간이다. 손실이 커졌다면, 그 손실을 줄이려면 파라미터를 어느 방향으로 움직여야 하는지 기울기(gradient)를 구한다. 마지막으로 기울기 방향으로 파라미터를 조금 업데이트한다. 이 업데이트 규칙은 고전적으로는 “가중치 = 가중치 − 학습률 × 기울기” 같은 형태로 나타난다. 대규모 데이터에서는 데이터 전체 기울기를 매번 계산하기 어렵기 때문에, 샘플 하나(또는 미니배치)로 근사한 확률적 경사하강(SGD) 같은 방식이 널리 쓰인다.

여기서 사람들이 “신경망은 미분 덩어리”라고 말하는 이유가 나온다. 출력이 손실로 이어지고, 손실이 다시 수많은 파라미터로 연결된다. 미분은 이 연결을 따라가며 “이 파라미터를 조금만 올리면 손실이 얼마나 줄어드나/늘어나나”를 계산한다. 이 과정의 대표 구현이 역전파(backpropagation)다. 역전파는 다층 구조에서 손실의 편미분을 효율적으로 계산하는 절차이며, 실제로는 연쇄법칙(Chain Rule)을 ‘계산 그래프’ 형태로 체계화한 것이다. 한 강의노트 표현을 빌리면, 역전파는 “그냥 연쇄법칙”이지만, 신경망에서 쓰기 좋게 정리되어 있고(그리고 수작업으로 하면 끔찍하게 귀찮아서) 실전에서는 자동미분으로 거의 대체되는 쪽이다.

현대 딥러닝 프레임워크는 이걸 공장처럼 돌린다. 예컨대 PyTorch의 문서 설명처럼, 자동미분 엔진은 연산을 수행하는 동시에 연산 그래프(DAG)를 기록하고, 그 그래프를 거꾸로 추적하면서 연쇄법칙으로 기울기를 자동 계산한다. “미분을 손으로 푸는 시대”에서 “미분을 시스템이 공짜로 뽑아주는 시대”로 넘어오면서, 모델 크기와 실험 속도가 폭발했다.

문장 생성은 확률을 쌓는 방식으로 진행된다

이제 질문을 바꿔보자. “AI가 문장을 만든다”는 건, 내부적으로는 무슨 행동일까. 요즘 대형 언어모델의 대표 구조인 트랜스포머는, 디코더 출력(벡터)을 소프트맥스(softmax)로 바꿔서 “다음 토큰의 확률분포”를 만든다. 그리고 그 분포에서 다음 토큰을 고른다. 중요한 포인트는 두 가지다.

첫째, 생성은 한 번에 문장 완성본을 뽑는 행위가 아니라 토큰 단위로 이어지는 연쇄 결정이다. 둘째, 그 결정은 대체로 “지금까지의 문맥에서 다음 토큰이 나올 확률이 높은 쪽”을 선택하는 방식으로 이루어진다. 트랜스포머 논문은 자기회귀(auto-regressive) 성질을 보존하기 위해 디코더에서 미래 토큰을 못 보게 마스킹을 넣고, 그 결과를 다음 토큰 확률로 변환한다고 설명한다. 말하자면 모델은 ‘앞 문장만 보고 다음 한 글자(토큰)를 예측하는 기계’에 가깝다.

이 관점에서 헛소리는 꽤 자연스럽다. 모델이 하고 있는 일은 “진실을 말하려는 행위”라기보다 “그럴듯한 다음 토큰을 이어붙이려는 행위”이기 때문이다. 실제로 GPT-3 논문은 GPT-3를 “자기회귀 언어모델”로 규정하고, 몇 가지 예시를 문맥에 넣어도 추가적인 기울기 업데이트 없이 그대로 적용된다고 명시한다(즉, 대화 중에는 보통 학습이 일어나지 않는다).

또 하나 현실적인 디테일이 있다. 모델이 보는 단위는 사람의 ‘단어’와 정확히 일치하지 않는다. GPT-3 논문은 바이트 단위 BPE 토크나이저를 사용하는 설계 선택이 특정 언어쌍 번역에서 약점으로 작동할 가능성을 언급한다. 이건 “모델이 언어를 이해한다”는 느낌과, 실제로는 “토큰 분해 후 확률 계산을 한다”는 현실의 간극을 잘 보여준다. 사람이 자연스럽다고 느끼는 문장이라도, 내부에서는 수많은 토큰 확률의 곱(정확히는 로그합)으로 평가되는 대상이다.

미분으로 참교육이 되는 지점과 안 되는 지점

“참교육”을 정말 하려면, 결국 두 가지 중 하나를 해야 한다. (1) 모델 파라미터를 바꿔서 같은 상황에서 다른 분포를 내게 만들거나, (2) 파라미터는 그대로 두고 외부 정보·규칙으로 출력이 뻗어나갈 수 있는 공간을 제한하거나 검증해야 한다. 첫 번째가 바로 미분 기반 학습이다.

대표 사례로 많이 언급되는 접근이 “사람 피드백으로 미세조정”이다. 2022년 InstructGPT 연구는, (a) 사람이 원하는 답안을 시범으로 준 뒤 지도학습으로 미세조정하고, (b) 여러 출력 중 무엇이 더 나은지 사람의 선호 데이터를 모아 보상모델을 학습한 뒤, (c) 그 보상모델을 보상함수로 삼아 PPO로 다시 미세조정하는 절차를 설명한다. 중요한 건 이 전체가 “목표함수를 더 잘 만족하도록 파라미터를 업데이트하는 과정”이라는 점이다. 그리고 그 업데이트의 핵심 계산은 여전히 기울기다.

이 연구는 “미분으로 참교육”이 실제로 행동을 바꿀 수 있음을 보여준다. InstructGPT는 사람 평가에서 선호도가 높았고, 특정 벤치마크에서 진실성(truthfulness) 개선을 보고했다. 또 “입력에 없는 정보를 꾸며내면 안 되는” 폐쇄형 과제에서 꾸며내는 비율이 줄었다는 비교도 포함한다. 즉, 손실을 “정직함/유용함”에 더 가깝게 설계하고(혹은 보상으로 대체하고), 그 손실을 미분으로 줄이면, 모델은 적어도 그 방향으로 습관을 바꾼다.

하지만 미분이 만능은 아니다. 첫째, 사전학습이 “다음 단어 예측”인 이상, 모델은 원천적으로 “유창한 문장 분포”를 맞추려는 압력이 있다. 둘째, 평가가 계속 “맞히면 점수, 모르겠다고 하면 0점” 구조라면 추측을 유도하는 힘이 남는다. 2025년 공개된 분석은 헛소리가 완전히 사라지지 않는 이유를 바로 이 인센티브 구조(추측 보상)와 “참/거짓 라벨 부재”에서 찾는다. 이 관점에서 “참교육”은 단순히 데이터 더 넣기보다, 모델이 ‘모르겠다’고 말해도 손해 보지 않게 학습·평가를 설계하는 문제로 확장된다.

그래서 두 번째 축이 중요해진다. 사실성 문제를 줄이려면 “모델 내부 지식(파라미터)”만 믿지 말고, 외부 지식을 끌어와 근거를 고정하는 방법이 자주 쓰인다. 대표가 RAG(retrieval-augmented generation) 계열이다. 2020년 제안된 RAG 논문은, 생성 모델(파라미터 메모리)과 별도의 검색 인덱스(비파라미터 메모리)를 결합해, 질의와 관련 문서를 검색해 조건으로 걸고 생성하는 프레임을 제시한다. 이 접근은 “모델이 그럴듯하게 지어내는” 공간을 줄이고, 최소한 ‘근거에 닻을 내리는’ 방향으로 설계를 바꾼다.

요약하면 이렇다. 미분은 모델을 혼내는 회초리가 아니라, 혼낼 규칙(손실·보상)을 정하면 그 규칙을 몸에 새기게 만드는 기술이다. 헛소리를 줄이는 건 그 규칙을 어떻게 정의하느냐(학습)와, 규칙 없는 빈칸을 어떻게 메우느냐(검색·검증·평가)까지 포함한 시스템 문제다.

GPU와 HBM이 갑자기 교양 상식이 된 이유

마지막 퍼즐은 하드웨어다. “미분으로 학습한다”는 말이 멋있게 들릴 수 있지만, 현실에서 그 문장은 곧 엄청난 수의 행렬곱과 메모리 이동을 한다는 뜻이다. 그리고 이 작업의 특성상 CPU보다 GPU가 유리해진다.

NVIDIA가 공개한 딥러닝 성능 문서는 GPU를 “수많은 SM(Streaming Multiprocessor)로 구성된 병렬 프로세서 + 캐시 + 고대역폭 DRAM”으로 요약한다. 신경망에서 가장 빈번한 연산이 곱-누적(multiply-add)이며, 이는 완전연결층·컨볼루션층을 포함한 많은 레이어를 “벡터 내적들의 집합”으로 볼 수 있게 한다고도 설명한다. 결국 대형 모델 학습은 ‘병렬 곱셈 공장’을 얼마나 효율적으로 돌리느냐의 문제로 수렴한다.

여기서 메모리 대역폭이 튀어나온다. 같은 문서에서 A100 예시로 “80GB HBM, 최대 약 2039GB/s 대역폭” 같은 구체 수치가 등장한다. 제품 스펙 페이지도 A100의 메모리 대역폭을 1,935–2,039GB/s 수준으로 제시한다. 즉, 연산 유닛이 아무리 빨라도, 가중치·활성값·그래디언트를 메모리에서 못 가져오면 전체가 굼떠진다.

그래서 혼합정밀도(mixed precision) 같은 기법이 하드웨어 이야기와 붙는다. 같은 회사의 혼합정밀도 가이드는 낮은 정밀도를 쓰면 “메모리 사용량이 줄고, 메모리 대역폭 요구가 줄어 데이터 전송이 빨라지며, 텐서코어 지원 하에서 연산도 더 빨라진다”고 정리한다. 모델이 커질수록, ‘연산’보다 ‘메모리와 이동’이 발목을 잡는 구간이 많아지기 때문에 이런 최적화가 실전에서 중요해진다.

여기서 HBM이 주연으로 올라온다. HBM은 “고대역폭을 패키지 근접 구조로 뽑아내는 메모리”로, AI 가속기에서 병목을 완화하는 핵심 부품이 됐다. 2025년 4월 발표된 HBM4 표준(기사 요약 기준)은 핀당 8Gb/s, 2048-bit 인터페이스를 통해 스택당 최대 2TB/s급 대역폭, 그리고 최대 64GB급 용량 구성을 이야기한다. 대역폭과 채널 수를 끌어올려 병렬 접근을 늘리려는 의도가 명확하다.

그리고 이게 그냥 이론이 아니라는 건, 시장 뉴스가 보여준다. 2026년 2월 12일 보도에 따르면 Samsung Electronics는 HBM4 칩을 고객사에 출하하기 시작했다고 밝혔고, 처리 속도(데이터 레이트) 수치를 공개하며 경쟁사 추격을 강조했다. 이 기사에서 경쟁 축으로 언급되는 SK hynix, Micron Technology까지 포함하면, “모델 성능 향상 = 메모리 대역폭 전쟁”이라는 구도가 꽤 노골적으로 드러난다.

표준을 정하는 JEDEC의 존재감도 커졌다. 표준이 있어야 컨트롤러·패키징·공급망이 맞물리고, 그래야 대규모 데이터센터 단위의 확장이 가능해진다. 그러니 “미분으로 학습한다”는 수학 한 줄이, (생성 AI 붐 이후 특히) GPU, HBM, 표준화, 공급 경쟁까지 끌고 나오는 것은 자연스러운 결말이다.

References

Backpropagation(역전파)의 핵심을 “연쇄법칙 기반의 손실 편미분 계산”으로 설명하는 강의노트.
고전적 역전파 알고리즘의 원전(1986년 Nature 논문).
경사하강/확률적 경사하강의 업데이트 규칙과 직관을 정리한 실무적 고전 문서.
트랜스포머에서 마스킹으로 자기회귀 성질을 유지하고, 소프트맥스로 다음 토큰 확률을 만든다는 설명(원 논문).
GPT-3를 자기회귀 언어모델로 정의하고, few-shot 적용이 “기울기 업데이트 없이” 진행된다는 명시(원 논문).
언어모델 헛소리를 “다음 단어 예측 + 참/거짓 라벨 부재 + 평가 인센티브(추측 보상)” 관점에서 해설한 글과 연결 논문(2025).
헛소리(환각) 현상을 분류·원인·완화 기법까지 정리한 서베이(2023 arXiv, 2025 ACM).
사람 피드백 기반 미세조정(SFT→보상모델→PPO) 절차와 진실성/헛소리 감소 관찰을 포함한 연구(2022).
검색 기반 생성(RAG)으로 “외부 근거를 조건으로 걸고 생성”하는 프레임을 제시한 연구(2020).
GPU가 왜 딥러닝에 유리한지(병렬 구조, 텐서코어, 메모리 대역폭 등)를 설명하는 성능 가이드(2023).
혼합정밀도가 메모리/대역폭 요구를 줄이고 학습을 가속하는 이유를 정리한 가이드(2023).
A100 메모리 대역폭·HBM 구성 등 제품 스펙(공식 스펙 페이지).
HBM3E의 핀 속도와 스택당 대역폭을 제시하는 제품 페이지.
HBM4 표준(JESD270-4)의 핵심 수치(2TB/s급, 2048-bit 등)와 구성(채널/용량)을 요약한 기사.
2026년 2월 12일, HBM4 출하·속도 수치 등을 다룬 보도.

#34미분이 AI를 움직이고, 헛소리를 만든다

AI는 팩트를 배우는 게 아니라 문장 패턴의 분포를 배운다. 경사하강법이 어떻게 모델을 학습시키는지 알면, 왜 같은 구조에서 정답과 헛소리가 동시에 나오는지가 이해된다.