실전 가이드 · 4분 · 05.06

ChatGPT 기본 모델이 또 갈렸다 — GPT-5.5 Instant 등판, 바이브코더가 90일 안에 해야 할 5가지

loopy vibecoder

#draft #GPT-5.5-Instant #OpenAI #ChatGPT #chat-latest #deprecation #모델교체 #프롬프트엔지니어링

핵심 요약 (TL;DR)

2026년 5월 5일 OpenAI가 GPT-5.5 Instant를 ChatGPT 기본 모델로 전환했습니다. AIME 2025 65.4→81.2, MMMU-Pro 69.2→76 향상, 법률·의료·금융 영역의 환각 감소가 셀링 포인트예요. API에서는 chat-latest 별칭으로 호출할 수 있고, 기존 GPT-5.3 Instant는 paid 유저에 한해 향후 3개월만 유지된 후 만료됩니다. 'gpt-5.3-instant'를 프로덕션에 박아둔 바이브코더라면 90일 안에 5가지를 점검해야 합니다.

또 모델이 갈렸다 — 이번엔 진짜 일정이 짧다

바이브코더가 가장 자주 듣는 잔소리가 있죠. "왜 모델 별칭을 직접 박아 두냐, latest 별칭 쓰면 되지 않느냐." 그럴 때마다 이렇게 답하지 않으셨나요. "같은 모델이라도 prompt 길이·tool 호출 행동이 미묘하게 바뀌면 production이 깨집니다." 그래서 우리는 굳이 'gpt-5.3-instant' 같은 명시적 핀을 박아 뒀습니다.

그런데 이번 주에 그 결정이 다시 도마 위에 올라왔어요. TechCrunch가 5월 5일 보도한 대로, OpenAI는 GPT-5.5 Instant를 ChatGPT 기본 모델로 전환하면서 GPT-5.3 Instant를 즉시 대체했습니다.

GPT-5.5 Instant가 바꾼 것

OpenAI 공식 발표를 정리해 보면 변화가 셋입니다.

추론력: AIME 2025 65.4 → 81.2, MMMU-Pro 69.2 → 76. 응답속도는 비슷한데 reasoning 성능만 끌어올렸다는 게 공식 입장이에요.
환각 감소: 법률·의료·금융처럼 민감 도메인의 답변 품질이 핵심 셀링 포인트로 명시됐습니다.
컨텍스트 매니지먼트: 과거 대화·파일·Gmail 같은 메모리 소스에서 답을 끌어오되, 어떤 출처에서 왔는지 표시하는 투명성 기능이 추가됐습니다.

그리고 가장 중요한 건 deprecation 일정입니다. API에서 GPT-5.3 Instant는 paid 유저에 한해 향후 3개월만 유지된 후 만료. 새 별칭은 chat-latest로, ChatGPT 기본과 동일한 모델을 가리킵니다.

90일 안에 해야 할 5가지

3개월은 짧습니다. 한국 SaaS 운영자라면 이번 주 안에 다음 5가지를 시작하는 게 안전해요.

1. 평가셋부터 다시 돌리기

프롬프트 회귀 테스트 셋이 있다면 GPT-5.5 Instant·기존 GPT-5.3 Instant·chat-latest 셋을 같은 입력으로 돌려보세요. 우선 봐야 할 것은 (1) 답변 길이·톤의 변화 (2) tool 호출 행동(언제 부르고 안 부르는지) (3) JSON 스키마 준수율입니다. 추론 점수가 올라갔다는 건 "답을 더 많이 생각해서 길게 쓴다"로 나타나기도 하니 token 비용 변화도 같이 측정하셔야 합니다.

2. `chat-latest` 별칭의 함정 점검

chat-latest가 자동으로 instant 계열만 가리키는지, 향후 OpenAI가 reasoning 계열까지 묶어버릴지는 아직 명확히 공개돼 있지 않습니다. 이 별칭은 "OpenAI가 결정한 default를 따라간다"는 뜻이라 프로덕션 핀으로 쓰면 안 정합니다. 평가용·실험용으로 쓰고, 핵심 라우트는 명시적 모델명을 박아두는 패턴을 권합니다.

3. 한국어 응답 품질 비교

공개된 벤치는 모두 영어 기준(AIME·MMMU-Pro)입니다. 한국어 답변에서 환각 감소 폭이 같이 올라갔는지는 자체 테스트 외엔 답이 없어요. 도메인별로(법률·의료·금융·일반 CS) 30~50개 골든 셋을 만들어 GPT-5.5 vs 5.3 비교 결과를 정리해 두시면, 다음 모델 교체 때도 그대로 재사용할 수 있습니다.

4. 'context management' 켜졌을 때의 라우팅 영향

ChatGPT가 과거 대화·파일·Gmail에서 답을 끌어오게 되면, 같은 질문이 사용자별로 다른 답을 줍니다. B2B 챗봇을 만든 바이브코더는 "의도적으로 stateless"가 필요한 라우트를 점검하세요. 시스템 프롬프트로 메모리 의존을 끄거나 최소화하는 옵션이 일관성을 지킵니다.

5. 비용 영향 측정 + 90일 캘린더 박기

3개월 deprecation은 운영자에게 짧은 시간이에요. 캘린더에 (1) D+30: 평가 결과 결정 데드라인 (2) D+60: 프로덕션 트래픽 50% 미러링 시작 (3) D+85: 전량 전환 을 박아 두세요. D+90에 GPT-5.3이 만료된 뒤 "다음 주에 옮길게요" 같은 슬랙 메시지가 안 나오게 하는 가장 단순한 방법입니다.

작은 함정 — Brockman의 "$50B 컴퓨트" 발언

같은 5월 5일 Bloomberg가 보도한 Greg Brockman의 발언에 따르면 OpenAI는 2026년 컴퓨트에 $50B를 쓸 계획입니다. 모델 교체 사이클이 올해 더 짧아질 거라는 신호로 읽혀요. 즉 GPT-5.5도 6~9개월 안에 또 다른 default로 갈릴 가능성이 큽니다. 이번 90일 점검을 "한 번만 하는 작업"이 아니라 "모델이 갈릴 때마다 자동으로 발동하는 운영 절차"로 만들어 두는 게 진짜 ROI입니다.

마무리 — 90일은 짧고, 평가 셋이 가장 비싸다

GPT-5.5 Instant가 정말 더 똑똑한지는 우리 도메인 평가셋이 결정합니다. 벤치 점수는 참고치고, 우리 사용자가 "이 답이 맞다"고 평가하는 골든 셋만이 진실이에요. 이번 주 안에 평가 셋을 한 번 더 다듬고, chat-latest와 gpt-5.5-instant를 같이 돌려서 30개 이상 비교 결과를 슬랙 채널 한 곳에 모아 두세요. 그게 다음 모델 교체에서 우리를 가장 빨리 살려줄 자산이 됩니다.

FAQ

Q. 그냥 chat-latest로 옮기면 안 되나요?

실험·내부 도구라면 OK입니다. 다만 사용자에게 SLA 약속이 있는 프로덕션 라우트라면 명시적 모델명을 핀으로 두세요. chat-latest는 OpenAI가 default를 바꾸면 같이 바뀌므로, 한 밤중에 답변 톤·길이·tool 호출 행동이 바뀌어도 우리가 알 길이 없습니다.

Q. 한국어 환각 감소가 영어와 같은 폭으로 올랐나요?

공식 발표는 영어 벤치(AIME·MMMU-Pro) 기준입니다. 한국어 환각 감소 폭은 자체 테스트로 확인해야 해요. 법률·의료·금융 같은 민감 도메인은 도메인 전문가가 직접 채점하는 골든 셋을 만들어 비교하시는 게 가장 정확합니다.

Q. GPT-5.3 Instant 만료 후 fallback은 어떻게 잡나요?

옵션 둘. (1) GPT-5.5 Instant를 primary, 4o-mini 계열을 cost-fallback으로. (2) GPT-5.5 + Claude Haiku 4.5처럼 멀티 프로바이더 라우팅. 단순 비용만 보면 (1), 운영 위험 분산까지 보면 (2)가 안전합니다. 평가셋에서 두 시나리오를 같이 돌려 결정하세요.