한 주에 몰린 세 개의 신호
어떤 기술이 “다음 단계로 넘어갔다”는 감각은 보통 한 번에 오지 않는다. 자료를 깔끔하게 정리해 보면 대개는 천천히 쌓이는 변화다. 그런데 가끔, 시장이 스스로 타임라인을 접어서 우리 얼굴 앞에 던지는 주간이 있다. 2026년 2월 초가 딱 그랬다. Anthropic가 Claude Opus 4.6을 내놓고(핵심은 1M 토큰 컨텍스트와 ‘팀 단위 에이전트’), OpenAI가 거의 즉시 GPT‑5.3‑Codex를 꺼내 들었다(핵심은 ‘에이전트형 코딩’의 확장과 “개발에 자기 자신이 참여했다”는 서사).
그다음 장면이 더 재미있다. 이 기술 전쟁이 갑자기 개발자 컨퍼런스가 아니라, Super Bowl LX의 광고판으로 튀어나왔다. 여기서 “광고 소동”은 두 겹이다. 하나는 정말로 물리적인 광고 전쟁이다. OpenAI와 Anthropic이 서로를 겨냥한 메시지로 슈퍼볼 슬롯을 사고, ‘코딩 에이전트’가 일반 대중에게까지 브랜딩되는 순간이 왔다.
다른 하나는 “신뢰”가 기술이 아니라 운영과 인센티브에서 깨지는 장면이다. AI.com은 슈퍼볼 광고로 사람을 끌어모으는 데는 성공했지만, 정작 사이트가 버티지 못해 공개적인 셀프 디도스(에 가깝게) 터졌다. 큰돈을 쓰면 뭔가 대단한 게 나올 것 같지만, ‘로그인 버튼 하나’가 모든 걸 망칠 수 있다는 걸 전국방송으로 시연한 셈이다.
이 세 사건을 한 줄로 묶으면 이런 느낌이다. 프런티어 모델은 더 길게 읽고(컨텍스트), 더 길게 일하고(에이전트), 더 직접 돈을 만들려고 한다(코딩과 광고). 그리고 이 세 축이 서로를 때리는 방식으로 “전쟁”이 진행된다.
길어진 기억과 팀플레이가 만든 체감 변화
Claude Opus 4.6에서 가장 중요한 변화는 “똑똑해졌다” 같은 추상어가 아니다. 모델이 다룰 수 있는 ‘일의 부피’가 커졌고, 그 부피를 꾸준히 견디는 방법이 제품으로 들어왔다는 점이다. Anthropic은 Opus급 모델에서 처음으로 1M 토큰 컨텍스트를 베타로 제공한다고 밝혔다. 동시에 오래 대화할수록 성능이 녹아내리는 문제(일명 context rot)를 정면으로 이야기하며, 1M급 ‘바늘 찾기’ 평가(MRCR v2의 8-needle 1M 변형)에서 Opus 4.6이 76%를 기록했고 Sonnet 4.5는 18.5%였다고 공개했다. “길게 넣어도 잊지 않는 능력”을 전면에 세운 셈이다.
여기서 ‘1M 토큰’이 감이 안 오면 이렇게 생각하면 된다. 예전 챗봇이 작은 가방 하나 들고 일하는 느낌이라면, 이건 이삿짐 트럭을 끌고 현장에 들어가는 느낌이다. 길게 일한다는 건 단순히 소설 한 권을 통째로 읽는 문제가 아니다. 기업의 코드베이스, 규정 문서, 로그, 이슈 트래커 대화, 스펙 변경 내역 같은 “뿌연 덩어리”를 한 번에 머리 위에 올려놓고, 거기서 필요한 걸 찾아내고, 그걸 근거로 다음 액션을 만드는 능력이다. Anthropic은 이를 뒷받침하는 제품 기능으로 **context compaction(자동 압축 요약)**을 베타로 넣었다. “창이 꽉 차면 오래된 걸 요약해 자리 만들기”다. 인간이 회의록을 정리해 파일로 남기듯, 모델이 스스로 기억을 정리해 체력을 관리하는 방식이다.
두 번째 포인트는 ‘혼자 일하는 모델’에서 ‘팀이 일하는 모델’로의 전환이다. Anthropic은 Claude Code에 **agent teams(에이전트 팀)**을 연구 프리뷰로 넣었다고 발표했다. 여러 에이전트를 병렬로 돌리고, 서로 조율하게 하는 방식이다. 단순히 “동시에 여러 창을 켰다”가 아니라, 코드베이스 리뷰처럼 읽는 일이 많은 작업에 특히 맞는다고 못 박는다.
이게 구호가 아니라는 걸 보여주는 사례가 바로 Anthropic 엔지니어링 블로그의 실험이다. 16개 에이전트를 투입해 Rust 기반 C 컴파일러를 ‘클린룸 방식’(인터넷 접근 없이)으로 만들고, 그 컴파일러로 Linux 커널(6.9)을 x86/ARM/RISC‑V에서 빌드하는 데 성공했다고 공개했다. 총 2천 회에 가까운 Claude Code 세션이 돌았고, 입력 20억 토큰·출력 1억4천만 토큰을 사용했으며 비용은 2만 달러가 조금 안 됐다고 한다. 심지어 QEMU, FFmpeg, SQLite, Postgres, Redis 같은 프로젝트도 컴파일했고, GCC torture test suite 포함 여러 테스트에서 99% 패스율을 기록했으며 최종 “재미 테스트”로 Doom 실행까지 언급한다.
여기서 포인트는 “AI가 컴파일러를 만들었다”라는 한 문장이 아니다. 더 중요한 건, 이 실험이 에이전트가 ‘길게 일할수록’ 무엇이 깨지는지까지 같이 보여준다는 점이다. Linux 커널 빌드는 단일 거대 작업이라 에이전트들이 같은 bug를 같은 방식으로 고치다 서로 덮어쓰는 문제가 생겼고, 이를 해결하려고 GCC를 ‘정답 오라클’처럼 활용하는 하네스를 만들어 병렬화를 다시 성립시켰다고 설명한다. 또 자체 어셈블러·링커가 없고, 일부 단계는 GCC를 호출해 “치트”를 썼으며, 생성 코드의 효율이 떨어지는 한계도 솔직하게 적었다. “가능해졌다”와 “아직 불안하다”가 한 문서 안에 같이 있다. 이 균형이 현재 프런티어 모델의 실체에 가깝다.
마지막으로 안전 이야기를 빼면 반쪽이다. Anthropic은 Opus 4.6에 대해 “사보타주 리스크”를 따로 다룬 보고서를 내면서, 조직의 강력한 권한을 악용해 시스템이나 의사결정을 교란하는 유형의 위험을 정의하고, 전체 위험 평가는 “매우 낮지만 무시할 수는 없다(very low but not negligible)”고 적는다. 동시에 내부적으로는 Opus 4.6을 코딩·데이터 생성 같은 에이전트성 유스케이스에 많이 쓰고 있으며, 위험한 일관된 목표를 갖고 있다고 보지 않는다고도 명시한다.
다만 외부 요약 기사에서는 “특정 환경에서는 유해 용도로의 취약성이 올라갔다”는 경고도 함께 다룬다. 요컨대 능력이 커질수록 ‘안전하냐’의 질문은 모델 그 자체보다 배치 방식(도구 접근, 권한, 감시, 제약)에 더 크게 걸린다.
코딩 에이전트가 ‘일’에 붙는 방식
OpenAI의 GPT‑5.3‑Codex는 발표 문장부터 ‘전쟁’의 리듬을 갖고 있다. 코딩 성능과 범용 추론을 합친 “가장 강력한 에이전트형 코딩 모델”이며, GPT‑5.2‑Codex 대비 25% 빠르다고 말한다. 그리고 가장 눈길을 끈 문장이 있다. “자기 자신을 만드는 데 instrumental 했다”는 주장이다. 초기 버전을 사용해 학습 디버깅, 배포 관리, 평가 진단을 도왔고, 팀이 충격받을 정도로 개발 속도를 끌어올렸다고 한다.
이 문장을 곧이곧대로 받아들이면 “AI가 스스로 AI를 만들기 시작했다”가 된다. 하지만 같은 회사의 시스템 카드가 곧바로 브레이크를 건다. GPT‑5.3‑Codex는 생물·사이버 영역에서 “High capability”로 취급해 안전장치를 활성화하면서도, AI self-improvement 영역에서는 High capability에 도달하지 않는다고 적는다. 기술적으로는 “자기 자신을 만드는 데 도움을 줬다”와 “완전한 재귀적 자기개선(완전 자동 AI R&D)”은 전혀 다른 말이라는 뜻이다.
OpenAI가 실제로 밀고 있는 건 “모델의 두뇌”만이 아니라 일하는 방식의 제품화다. 2월 2일 공개한 macOS용 Codex 앱을 “에이전트 커맨드 센터”라고 부르고, 여러 에이전트를 병렬로 관리하고 장기 작업을 감독하는 UI 자체가 핵심이라고 설명한다. worktree로 repo 충돌을 줄이고, 에이전트가 만든 diff를 리뷰하면서 코멘트하고, 필요하면 에디터로 열어 사람이 손볼 수 있게 만든다. 즉, 앞으로의 작업 형태는 “IDE에서 혼자 코딩”이 아니라 “에이전트 여러 명을 굴리고 사람이 감독”이라는 전제다.
여기서 안전 설계도 노골적으로 강조한다. Codex 스택은 기본적으로 샌드박스에서 움직이고, 네트워크 접근은 기본 비활성화이며, 사용자가 필요할 때만 허용하도록 구성했다고 한다. 시스템 카드에는 클라우드에서는 격리 컨테이너를 쓰고, 로컬에서는 macOS는 Seatbelt, 리눅스는 seccomp/landlock, 윈도우는 샌드박스나 WSL 기반 격리를 언급한다. 에이전트가 “내 컴퓨터를 조작할 수 있다”는 약속은 매력적이지만, 그 순간부터 보안 사고는 ‘가능성’이 아니라 ‘확률’이 되기 때문에 이런 제약이 전면으로 나온다.
그리고 OpenAI는 속도를 또 하나의 무기로 꺼냈다. GPT‑5.3‑Codex‑Spark는 연구 프리뷰로 공개된 “실시간 코딩 모델”이며, 초저지연 하드웨어에서 1,000 토큰/초 이상을 목표로 한다고 밝힌다. 컨텍스트는 128k이고 텍스트 전용이라고 명시한다. 길게 일하는 모델(GPT‑5.3‑Codex)과, 즉각 반응하는 모델(Spark)을 역할 분리로 내놓은 것도 전형적인 “제품군 전쟁”의 그림이다.
이 Spark가 파트너십 첫 이정표라고 지목한 회사가 Cerebras Systems다. 외부 보도에서는 OpenAI가 이 모델을 Cerebras 칩에서 서빙하는 것이 “Nvidia 의존에서 벗어난 첫 생산(프로덕션)급 배치”라는 의미를 갖는다고 해석한다. 개별 칩 구조 설명까지 붙는다. 이건 모델 경쟁이 결국 하드웨어·전력·서빙 비용 싸움으로 내려온다는 걸 보여준다.
여기서 중요한 결론은 하나다. “코딩”이 AI의 킬러앱인 이유는 감성 때문이 아니라 경제 때문이라는 점이다. 코드는 결과가 눈에 보이고, 테스트로 검증이 가능하며, 생산성이 돈으로 바로 번역된다. 게다가 비개발자도 “아이디어를 제품으로 바꾸는” 경험을 맛보게 되면, 이건 검색보다 더 강한 중독성을 갖는다. Reuters는 슈퍼볼 광고 분석에서 코딩이 “high economic value task”로 부상했고, 이 전쟁의 승자가 첫 번째로 ‘지속가능한 AI 비즈니스 모델’을 잡을 수 있다고까지 정리한다.
자기개선이라는 단어의 실제 무게
이쯤 되면 자꾸 등장하는 단어가 있다. “재귀적 자기개선”이다. 사람들이 이 말을 꺼내는 이유는 단순하다. 무서워서다. 그리고 솔직히, 좀 멋있기도 해서다. 문제는 이 단어가 “요즘 모델이 자기 개발에 도움 된다”부터 “완전 자동으로 다음 세대 모델을 만든다”까지, 스펙트럼이 너무 넓다는 점이다.
먼저 ‘토큰’과 ‘컨텍스트’부터 현실적으로 잡아야 한다. 토큰은 글자를 그대로 세는 방식이 아니고, 언어를 잘게 쪼갠 단위다. OpenAI는 영어 기준으로 1토큰이 대략 4자, 단어로는 0.75단어쯤이라는 ‘룰 오브 텀’을 제공한다. 반면 Claude 쪽 문서에서는 Claude의 토큰이 영어 약 3.5자 정도라고 설명한다. 같은 “1M 토큰”이라도 언어와 문장 구조에 따라 실제 길이 체감이 달라지는 이유다.
그다음은 “AI self-improvement”의 정의다. OpenAI의 Preparedness Framework v2는 이 범주를 “AI 연구를 가속해 시스템 자신의 능력을 올리는 능력”으로 설명하면서, High 단계는 “OpenAI 연구자 각자에게 성능 좋은 중견 연구 엔지니어 보조를 붙여주는 수준의 영향”이라고 적는다. Critical 단계는 더 세다. 완전 자동 AI R&D(재귀적 자기개선), 즉 초인적 연구자 에이전트이거나, 2024년 대비 1/5의 시간으로 ‘세대 단위’ 모델 개선을 지속적으로 만들어내는 수준을 예시로 든다.
이 정의를 기준으로 보면, “GPT‑5.3‑Codex가 자기 개발에 instrumental 했다”는 말은 High 근처의 서사에는 걸칠 수 있어도, Critical의 ‘풀오토’와는 거리가 있다. 실제 시스템 카드도 “AI self-improvement에서 High capability에 도달하지 않는다”고 못 박는다.
반대로 Anthropic의 사례는 어떤가. 앞서 본 C 컴파일러 실험은 분명 강렬하다. 다만 그 글을 끝까지 보면, 거기엔 계속 사람이 하네스를 설계하고, 병렬화가 깨지는 지점을 찾아내고, 오라클(GCC)을 붙여서 문제를 쪼개고, “이 단계는 치트 쳤다”는 고백까지 나온다. 이건 “AI가 스스로 진화했다”가 아니라, AI를 부품으로 쓰는 ‘개발 공장’의 생산성이 폭증했다는 그림에 더 가깝다.
물론 이 폭증 자체가 위험을 만든다는 주장도 이해할 만하다. RSI를 형식적으로 다루려는 학계 시도도 있고(예: RSI 시스템을 수학적으로 정의하고 제한된 형태에서 “가능함”을 보이는 논문), “철학”이었던 주제가 점점 공학으로 내려오고 있다는 신호도 있다.
하지만 지금 당장 중요한 건 단어가 아니라 메커니즘이다. **(긴 컨텍스트 + 도구 사용 + 병렬 에이전트 + 검증 하네스)**가 결합되면, “모델이 스스로 좋아짐”이 아니라 “모델을 이용해 시스템 전체가 더 빠르게 좋아짐”이 현실이 된다. 그리고 이 변화는 이미 제품 사용자 경험으로 들어와 있다.
슈퍼볼 광고판에서 벌어진 신뢰 게임
이제 광고 이야기로 넘어가면, 갑자기 기술 얘기가 훨씬 인간적이 된다. 왜냐하면 광고는 “기술이 무엇을 할 수 있나”가 아니라 “사람이 무엇을 믿게 만들 수 있나”의 게임이기 때문이다.
Anthropic은 2월 4일 “Claude는 생각하는 공간이며, 대화에 광고를 넣지 않겠다”는 글을 냈다. 검색이나 SNS는 스폰서가 섞여 있다는 기대치가 있는데, AI 대화는 형식이 오픈엔디드라 사용자가 더 깊은 맥락을 드러내고, 그만큼 미묘한 영향에 취약해진다고 주장한다. 광고 인센티브가 들어오면 “진짜 도움이 되는 답”과 “전환(구매)로 몰아가는 답”이 충돌할 수 있고, 설령 답변을 건드리지 않더라도 채팅창 주변에 광고가 붙는 순간, 공간 자체가 ‘집중’이 아니라 ‘체류 시간’ 최적화로 기울 수 있다고 말한다. 요컨대 Anthropic이 팔고 있는 건 모델만이 아니라 인센티브의 순도다.
OpenAI는 정반대 포지션을 취한다. 2월 9일 “ChatGPT에서 광고를 테스트한다”고 공식 발표하며, 대상은 미국의 Free/Go(저가) 사용자이고, Plus 이상은 광고가 없다고 밝혔다. 그리고 “광고는 답변에 영향을 주지 않으며, 대화 내용은 광고주로부터 보호한다”는 문장을 정면에 둔다. 광고 노출은 대화 주제, 과거 채팅, 과거 광고 상호작용을 기반으로 매칭한다고 명시하면서도(쉬운 말로 개인화다), 답변은 광고와 분리된 영역에 ‘스폰서드’로 표기한다고 강조한다. Free 사용자는 메시지 제한을 감수하면 광고를 끌 수 있다는 식의 선택지도 둔다.
이 둘의 싸움이 왜 하필 슈퍼볼에서 터졌냐면, 슈퍼볼은 “신뢰를 사는 비용”이 살인적으로 비싸기 때문이다. Reuters는 Anthropic의 광고가 ChatGPT 광고 계획을 겨냥해 “Ads are coming to AI. But not to Claude”라는 펀치를 날렸고, Sam Altman이 “기만적(deceptive)”이라고 반발했다고 전한다. 같은 기사에서 NBCUniversal 쪽 인용으로 슈퍼볼 30초 평균 단가가 800만 달러이며 일부는 1천만 달러를 넘겼다고도 적는다. 즉, 기술 싸움이 ‘마케팅 현금 전쟁’으로 내려왔다는 뜻이다.
이 와중에 OpenAI는 슈퍼볼에서 Codex 광고를 냈다. Reuters와 The Verge 모두 핵심 메시지를 “You can just build things”로 요약한다. 대중에게 “AI는 답해주는 게 아니라 만들어준다”는 이미지로 들어가려는 시도다.
이제 “Debacle”의 진짜 주인공, AI.com으로 가자. 이건 OpenAI나 Anthropic이 만든 서비스가 아니라, Kris Marszalek(Crypto.com의 CEO)이 주도한 플랫폼으로 소개된다. 문제는, 슈퍼볼 4쿼터 광고로 트래픽을 폭발시키는 데 성공하자마자 사이트가 뻗었다는 점이다. Tom’s Hardware는 “prepared for scale, but not for THIS”라는 CEO의 발언과 함께, 초기 온보딩이 사실상 ‘Continue with Google’ 단일 옵션이라 Google 인증 요청이 병목이 됐을 가능성을 짚는다. 그리고 7천만 달러짜리 도메인을 들고 나온 서비스가 “인증 옵션 하나”에서 넘어졌다는 사실을 신랄하게 비판한다.
Business Insider도 AI.com이 슈퍼볼 이후 다운됐다는 반응을 전하면서, 이 도메인 거래가 “알려진 도메인 거래 중 최고가”였고 그 사실이 Financial Times에 의해 확인됐다고 적는다. 또한 슈퍼볼 타임슬롯 단가가 평균 800만 달러(30초)로 치솟았다는 “가격의 현실”도 함께 제시한다.
아이러니는 여기서 끝이 아니다. Business Insider는 “사이트 크래시가 브랜드에 오히려 도움이 될 수도 있다”는 업계 시각을 전한다. 대중은 접속 실패를 “수요 폭발”로 해석하고, 그 자체가 바이럴이 되는 구조다. 하지만 AI 서비스는 특히 다르다. AI는 지금 신뢰를 파는 산업이고, 신뢰는 ‘처음 30초’에서 결정되는 경우가 많다. ‘내가 내 일을 맡길 도구’라는 포지션에서, 첫 인상이 “로그인도 못 함”이면 치명적이다. AI.com 사례는 기술보다 운영이 먼저라는 평범한 교훈을, 너무 큰 무대에서 너무 비싼 학비로 배운 사건이다.
이 전쟁이 남긴 것
이 주간을 통해 드러난 핵심 쟁점은 “모델이 얼마나 똑똑해졌나”가 아니다. 누가 ‘일’을 차지하느냐, 그리고 누가 ‘신뢰’를 소유하느냐다.
첫째, 코딩 에이전트는 이제 ‘개발자 보조’가 아니라 ‘개발 공정’이 된다. Anthropic의 컴파일러 실험이 보여준 건, 모델이 코드 한 조각을 잘 쓰는 수준을 넘어 팀을 짜고 역할을 분담해 장기 프로젝트를 밀어붙일 수 있다는 가능성이다. 동시에 병렬화가 깨지고 품질이 흔들리는 지점도 그대로 노출한다. 이건 낙관과 비관 어느 한쪽으로만 정리되지 않는다. 다만 확실한 건, 앞으로 “코딩”은 더 많은 사람이 더 쉽게 참여하는 생산 활동이 된다는 점이다.
둘째, OpenAI의 “자기 개발에 참여한 모델” 서사는 과장이라기보다 방향 신호다. 지금은 아직 “완전 자동 RSI”가 아니다. OpenAI 스스로도 시스템 카드에서 AI self-improvement의 High에 도달하지 않는다고 적는다. 하지만 모델이 훈련·배포·평가를 돕는 루프는 이미 현실이고, 그 루프가 빨라질수록 ‘다음 버전’의 속도는 더 빨라진다. 마치 공장 자동화가 제품 하나의 품질이 아니라 “출시 주기”를 바꿔버리는 것과 같은 원리다.
셋째, 안전은 이제 모델 훈련만의 문제가 아니라 배치의 문제다. Anthropic은 사보타주 리스크를 “매우 낮지만 무시할 수 없다”고 쓰고, OpenAI는 사이버 영역 잠재력을 이유로 High capability로 취급하며 샌드박스·네트워크 제한을 기본값으로 둔다. 한 줄로 말하면, 에이전트가 현실 도구를 만지는 순간 안전은 운영체제가 된다는 뜻이다.
넷째, 광고는 ‘돈 벌기’ 이상의 문제로 번졌다. Anthropic은 광고 없는 대화를 신뢰의 핵심으로 삼고, OpenAI는 광고를 통해 더 많은 무료 접근을 가능케 한다는 논리를 편다. 어느 쪽이 옳냐보다 중요한 건, 이 선택이 결국 제품의 성격을 바꾼다는 점이다. “대화형 AI”는 사용자가 맥락을 많이 내어주는 인터페이스이고, 그 맥락은 광고 산업이 가장 탐내는 재료이기도 하다. 그래서 논쟁은 단순한 기능 논쟁이 아니라, AI가 어떤 종류의 사회적 인프라가 될 것인가의 싸움이 된다.
마지막으로, 이 모든 전쟁의 바닥에는 자본과 인프라가 깔려 있다. Reuters는 빅테크의 연간 AI 투자액이 6천억 달러를 넘는 규모로 커지고, Amazon이 2026년에 AI 관련 투자를 약 2천억 달러로 계획한다는 흐름까지 묶어 보여준다. 모델 성능 경쟁이 결국 전력·서버·칩·채권 발행 같은 ‘현물 세계’로 내려오는 이유다. 전쟁이란 말이 과장이 아닌 지점이 여기다.
References
Anthropic 공식 발표 및 기술 문서
OpenAI 공식 발표 및 시스템 카드
슈퍼볼 광고 전쟁 및 시장 맥락(주요 언론)
광고 도입 및 광고주 참여 보도
토큰·자기개선 정의 및 프레임워크