Claude Sonnet 5의 1M 컨텍스트 두 달 프로모 — 대형 레포를 통째로 로드하는 세 가지 실전 워크플로
핵심 요약 (TL;DR)
Anthropic이 2026년 6월 30일 Claude Sonnet 5를 출시하면서 8월 31일까지 입력 $2/M, 출력 $10/M 프로모를 걸었습니다. 1M 토큰 컨텍스트가 기본값이고, Terminal-Bench 2.1은 80.4%로 Opus 4.8(74.6%)을 앞섰지만 SWE-bench Pro는 63.2%로 Opus 4.8(69.2%)에 뒤졌어요. Claude Code v2.1.197+에서 기본 모델로 승격되었습니다. 두 달간의 프로모 기간이 대형 코드베이스 통짜 로드 실험에 적합한 시점입니다.
무엇이 바뀌었나
Sonnet 5는 미들 티어 모델이 처음으로 1M 컨텍스트를 프로모 가격에 여는 사례입니다. 스펙을 정리하면 이래요.
| 항목 | 값 |
|---|---|
| 컨텍스트 | 1M 토큰 (기본값 = 최대값) |
| 출력 | 128K 토큰 |
| 가격 (프로모) | 입력 $2/M, 출력 $10/M (8/31까지) |
| 가격 (정가) | 입력 $3/M, 출력 $15/M (9/1 이후) |
| SWE-bench Pro | 63.2% (Opus 4.8: 69.2%) |
| Terminal-Bench 2.1 | 80.4% (Opus 4.8: 74.6%) |
| OSWorld-Verified | 81.2% |
주목할 대비가 있습니다. SWE-bench Pro에선 Opus에 뒤졌지만 Terminal-Bench에선 앞섰어요. Terminal-Bench는 CLI 에이전트와 DevOps 태스크를 측정하는 벤치라서, Claude Code나 Codex처럼 커맨드라인에서 도구를 반복 호출하는 워크플로가 정확히 여기 해당합니다. 그래서 Anthropic이 Claude Code v2.1.197+에서 Sonnet 5를 기본으로 승격한 결정이 이해가 되는 거죠. 참고로 같은 Terminal-Bench에서 GPT-5.5가 83.4%로 여전히 위에 있다는 사실은 함께 봐야 균형이 맞습니다.
실전 워크플로 세 가지
1M 토큰이 얼마나 큰 공간인지 감이 잘 안 올 텐데, 대략 4,000줄짜리 파일 250개 분량이에요. 중소 규모 오픈소스 저장소는 대부분 통째로 들어갑니다. 그리고 프로모 가격에서 이만큼 넣어도 입력 비용은 $2. 이 조합에서 시도해볼 만한 세 가지 워크플로가 있습니다.
워크플로 1: 대형 레포 전수 리뷰
지금까지는 코드 리뷰를 파일 단위로 잘라서 넣었잖아요. 1M이면 그럴 필요가 없습니다. find . -type f -name '*.py' -o -name '*.ts' | xargs cat으로 전 파일을 통째로 던지고, "이 코드베이스에서 SQL injection 가능성 있는 지점 전부 찾아줘" 같은 크로스파일 질문을 한 번에 해요.
예상 비용은 이렇습니다. 10만 줄 프로젝트가 대략 400K 토큰. 입력 $0.80에 짧은 답변 출력 $0.10 정도. 예전엔 이런 걸 하려면 여러 번의 세션과 컨텍스트 스티칭이 필요했는데, 지금은 한 번에 끝나는 거죠.
워크플로 2: 문서 통짜 학습
새 라이브러리를 도입할 때 문서를 통짜로 컨텍스트에 부어놓고 질문하는 방식이에요. 예를 들어 Kubernetes 공식 문서 전체를 로드해두면 "이 시나리오에서 어떤 리소스 조합이 적합한지"를 문서 근거와 함께 답하게 만들 수 있습니다. 웹 검색보다 hallucination이 훨씬 줄어들어요.
워크플로 3: 히스토리 통째 로드 리팩터링
리팩터링에서 가장 어려운 부분은 왜 지금 이렇게 되어 있는지 이해하는 거예요. git log --all -p 결과의 최근 1년치를 컨텍스트에 넣으면 코드의 현재 상태와 히스토리 맥락을 동시에 볼 수 있습니다. "이 함수를 왜 이렇게 리팩터링하면 안 되는지, 커밋 히스토리에서 근거를 찾아줘" 같은 질문이 가능해집니다.
HN의 회의론도 함께 봐야 하는 이유
HN에서 1,232pts로 폭발했지만 톤은 회의적이었습니다. 최상위 댓글이 이랬어요. "이 가격이면 왜 low-effort Opus를 안 쓰나. 많은 벤치에서 태스크당 비용이 Opus보다 오히려 높다." 이유는 토큰 인플레이션이에요. Sonnet 5가 태스크를 풀 때 파일을 더 많이 읽고, 심지어 Java bytecode를 디컴파일하는 등 낭비 사례가 다수 보고되었습니다.
그러니까 1M 컨텍스트 프로모가 좋다고 무작정 매 태스크에 다 붓지 마세요. 두 개 원칙을 지키면 안전합니다. 하나, 컨텍스트를 통짜로 넣는 건 크로스파일 크로스히스토리 질문에만 쓰기. 둘, 짧은 태스크는 여전히 작은 컨텍스트로 처리하기.
FAQ
Q. 8월 31일 이후 프로모가 끝나면 어떻게 되나요?
A. 정가는 입력 $3/M, 출력 $15/M입니다. 50% 인상이라 대형 레포 통짜 로드 워크플로는 그때부터 비용 계산을 다시 해야 해요. 지금 두 달이 실험 창입니다.
Q. Claude Code에서 자동으로 Sonnet 5로 바뀌나요?
A. v2.1.197 이상이면 기본 모델로 승격됩니다. 기존 프롬프트 스타일이 Opus 기준으로 튜닝되어 있었다면 재조정이 필요할 수 있어요.
Q. 코딩에선 Opus 4.8이 여전히 더 낫나요?
A. 벤치마다 다릅니다. SWE-bench Pro는 Opus가 앞서고, Terminal-Bench는 Sonnet 5가 앞서요. 파일 편집·PR 스타일 태스크는 Opus, CLI 에이전트·DevOps 태스크는 Sonnet 5가 이론상 유리합니다.
마무리
1M 컨텍스트와 $2/M 프로모의 조합은 두 달짜리 실험 창입니다. 지금 안 해보고 넘어가면 정가로 돌아왔을 때 판단 근거가 없어져요. 대형 레포 하나 골라서 통짜로 부어보시는 걸 권합니다.
소스 원문: Anthropic 공식 발표 · TechCrunch 커버리지
댓글 0
아직 댓글이 없습니다