트렌드 · 3분 · 05.11

필즈상 수상자가 인증한 GPT-5.5 Pro — 우리가 코딩에 쓰는 그 모델이 PhD 논문 한 챕터를 1시간에 쓴다

loopy vibecoder

#draft #AI트렌드 #GPT-5.5-Pro #ChatGPT #수학 #Gowers #vibe-maths #추론모델

핵심 요약 (TL;DR)

1998년 필즈상 수상자 Timothy Gowers가 5/8 자기 블로그에 "ChatGPT 5.5 Pro가 사람 도움 없이 가법수론 미해결 문제를 17분 만에 PhD 논문 한 챕터 수준으로 풀었다"는 검증 후기를 올렸습니다. Hacker News 1면에 약 700점·500+ 댓글로 확산됐고, 코딩에 쓰던 그 Pro 모델이 복잡한 시스템 설계와 아키텍처 추론에서도 동급으로 작동한다는 신호입니다.

필즈상 수상자가 직접 검증한 결과

Timothy Gowers는 1998년 필즈상 수상자이자 Collège de France의 조합론 석좌입니다. 5/8 본인 블로그 A recent experience with ChatGPT 5.5 Pro에 직접 적은 후기는 분명합니다. Melvyn Nathanson이 초기 경력 연구자용 과제로 제시한 가법수론 미해결 문제를, Gowers는 "수학적 입력을 전혀 하지 않은 채" ChatGPT 5.5 Pro에 던졌습니다.

결과는 이렇습니다. 17분 5초의 thinking 후 N(h,k)의 상한을 지수에서 다항으로 개선했고, h²-dissociated sets라는 비자명한 구성을 자체 발견했습니다. 원 논문 저자 Isaac Rajagopal이 "거의 확실히 정확(almost certainly correct)"이라고 기술과 개념 양측에서 검증했고, Gowers 본인은 "내가 몇 주 걸려 만들었다면 자랑스러웠을 결과"라고 평가했어요. PhD 논문의 한 챕터로 충분히 들어갈 수준이라는 표현도 본인이 직접 썼습니다.

벤치마크와는 다른 무게

이 사건이 특별한 이유는 벤치마크 점수가 아니라는 점입니다. Frontier Math나 Putnam 같은 시험은 정답이 있는 문제고, LLM의 학습 분포에 일부 노출됐을 가능성이 항상 남아 있어요. 그런데 Gowers가 던진 건 본인이 직접 신뢰하는 동료가 만든 진짜 미해결 문제였고, 검증자도 원 논문 저자 본인이었습니다. "이제 수학 기여의 하한선은 'LLM이 못 푸는 걸 푸는 것'이지 '아무도 안 푼 걸 푸는 것'이 아니다"라는 본인 결론이 그래서 무겁습니다.

Hacker News 1면에 약 700점·500+ 댓글로 확산되고, The Decoder, Scientific American, Slashdot, Futurism이 일제히 보도한 이유입니다.

바이브코더가 알아야 할 두 가지 변화

첫째, OpenAI Pro tier($200/월)에 들어 있는 그 모델이 PhD급 추론을 한다는 사실입니다. 코딩 한정 용도로만 쓰던 사람이라면, 사용 범위 자체를 재계산할 시점입니다. 복잡한 시스템 아키텍처 결정, 분산 시스템 설계, 보안 위협 모델링, 데이터베이스 스키마 정합성 검토 같은 영역에 Pro 모델을 던져 넣는 게 이제 자연스러운 선택지입니다.

둘째, 17분 thinking에 소모되는 토큰은 만만치 않다는 점입니다. Gowers 사례는 진짜 어려운 문제에 깊이를 쓴 경우고, 일상 작업에 같은 모델을 그대로 끼얹는 건 비효율입니다. "이 문제는 Sonnet/Haiku로 충분한가, 아니면 Pro급이 정말 필요한 문제인가"를 구분하는 능력이 새 비용 변수예요.

CLAUDE.md / 에이전트 설정에 반영할 점

실전에선 두 가지 작업을 권합니다. 첫째, Pro 모델을 호출하는 트리거를 명시적으로 분리하세요. "심층 분석" 같은 키워드나 별도 명령으로만 Pro를 부르고, 평소 작업은 Sonnet/Haiku 라인업으로 유지하는 게 합리적입니다. 둘째, Pro에 던질 문제는 'context를 충분히 쌓은 후 한 번에 던지는' 형태가 효율적입니다. 17분 thinking을 활용하려면, 그 17분이 진짜 필요한 문제 정의를 사전에 정리해 두는 거죠.

학계 외부에서도 'vibe maths'라는 신조어가 등장하기 시작했습니다. 'vibe coding'에 이어 'vibe maths'가 자리잡는 흐름은, 수학 연구라는 인간 지식의 가장 깊은 영역까지 LLM 협업이 들어왔다는 신호입니다.

FAQ

Q. GPT-5.5 Pro만 이런 능력이 있나요?
A. Gowers는 GPT-5.5 Pro 사례만 검증했습니다. 다만 Claude Opus 4.7도 같은 등급의 deep reasoning 모델로 평가되고, 분야에 따라 강점이 갈립니다. 코드와 아키텍처 추론이 강한 게 Opus, 수학 추론이 검증된 게 GPT-5.5 Pro라는 정도의 구분이 현재 시점에서 합리적입니다.

Q. PhD급 추론을 코딩에 쓴다는 게 무슨 의미인가요?
A. 단순 함수 생성이 아니라, 분산 시스템 아키텍처 결정·DB 스키마 일관성 검토·보안 위협 모델링·복잡한 알고리즘 선택 같은 '추론 깊이'가 필요한 영역에 적극 활용하라는 의미입니다. Pro 모델을 코드 자동완성에만 쓰는 건 명백한 낭비입니다.

Q. 비용은 어느 정도 늘어나나요?
A. ChatGPT Pro는 월 $200, Claude Pro는 월 $20부터 시작합니다. API 사용 시 'thinking' 단계에서 토큰을 적극 소모하므로, 깊이 필요한 문제에만 선택적으로 쓰는 분리 전략이 필수입니다.

필즈상 수상자가 인증한 모델이 코딩 보조 도구로만 쓰이는 시대가 끝나고 있습니다. 이번 주는 본인 프로젝트에서 "진짜 Pro급 추론이 필요한 한 가지 문제"를 골라 그 모델에 던져 보시는 걸 권합니다.