실전 가이드 · 4분 · 07.02

Claude Sonnet 5의 1M 컨텍스트 두 달 프로모 — 대형 레포를 통째로 로드하는 세 가지 실전 워크플로

loopy vibecoder

핵심 요약 (TL;DR)

Anthropic이 2026년 6월 30일 Claude Sonnet 5를 출시하면서 8월 31일까지 입력 $2/M, 출력 $10/M 프로모를 걸었습니다. 1M 토큰 컨텍스트가 기본값이고, Terminal-Bench 2.1은 80.4%로 Opus 4.8(74.6%)을 앞섰지만 SWE-bench Pro는 63.2%로 Opus 4.8(69.2%)에 뒤졌어요. Claude Code v2.1.197+에서 기본 모델로 승격되었습니다. 두 달간의 프로모 기간이 대형 코드베이스 통짜 로드 실험에 적합한 시점입니다.

무엇이 바뀌었나

Sonnet 5는 미들 티어 모델이 처음으로 1M 컨텍스트를 프로모 가격에 여는 사례입니다. 스펙을 정리하면 이래요.

항목
컨텍스트 1M 토큰 (기본값 = 최대값)
출력 128K 토큰
가격 (프로모) 입력 $2/M, 출력 $10/M (8/31까지)
가격 (정가) 입력 $3/M, 출력 $15/M (9/1 이후)
SWE-bench Pro 63.2% (Opus 4.8: 69.2%)
Terminal-Bench 2.1 80.4% (Opus 4.8: 74.6%)
OSWorld-Verified 81.2%

주목할 대비가 있습니다. SWE-bench Pro에선 Opus에 뒤졌지만 Terminal-Bench에선 앞섰어요. Terminal-Bench는 CLI 에이전트와 DevOps 태스크를 측정하는 벤치라서, Claude Code나 Codex처럼 커맨드라인에서 도구를 반복 호출하는 워크플로가 정확히 여기 해당합니다. 그래서 Anthropic이 Claude Code v2.1.197+에서 Sonnet 5를 기본으로 승격한 결정이 이해가 되는 거죠. 참고로 같은 Terminal-Bench에서 GPT-5.5가 83.4%로 여전히 위에 있다는 사실은 함께 봐야 균형이 맞습니다.

실전 워크플로 세 가지

1M 토큰이 얼마나 큰 공간인지 감이 잘 안 올 텐데, 대략 4,000줄짜리 파일 250개 분량이에요. 중소 규모 오픈소스 저장소는 대부분 통째로 들어갑니다. 그리고 프로모 가격에서 이만큼 넣어도 입력 비용은 $2. 이 조합에서 시도해볼 만한 세 가지 워크플로가 있습니다.

워크플로 1: 대형 레포 전수 리뷰

지금까지는 코드 리뷰를 파일 단위로 잘라서 넣었잖아요. 1M이면 그럴 필요가 없습니다. find . -type f -name '*.py' -o -name '*.ts' | xargs cat으로 전 파일을 통째로 던지고, "이 코드베이스에서 SQL injection 가능성 있는 지점 전부 찾아줘" 같은 크로스파일 질문을 한 번에 해요.

예상 비용은 이렇습니다. 10만 줄 프로젝트가 대략 400K 토큰. 입력 $0.80에 짧은 답변 출력 $0.10 정도. 예전엔 이런 걸 하려면 여러 번의 세션과 컨텍스트 스티칭이 필요했는데, 지금은 한 번에 끝나는 거죠.

워크플로 2: 문서 통짜 학습

새 라이브러리를 도입할 때 문서를 통짜로 컨텍스트에 부어놓고 질문하는 방식이에요. 예를 들어 Kubernetes 공식 문서 전체를 로드해두면 "이 시나리오에서 어떤 리소스 조합이 적합한지"를 문서 근거와 함께 답하게 만들 수 있습니다. 웹 검색보다 hallucination이 훨씬 줄어들어요.

워크플로 3: 히스토리 통째 로드 리팩터링

리팩터링에서 가장 어려운 부분은 왜 지금 이렇게 되어 있는지 이해하는 거예요. git log --all -p 결과의 최근 1년치를 컨텍스트에 넣으면 코드의 현재 상태와 히스토리 맥락을 동시에 볼 수 있습니다. "이 함수를 왜 이렇게 리팩터링하면 안 되는지, 커밋 히스토리에서 근거를 찾아줘" 같은 질문이 가능해집니다.

HN의 회의론도 함께 봐야 하는 이유

HN에서 1,232pts로 폭발했지만 톤은 회의적이었습니다. 최상위 댓글이 이랬어요. "이 가격이면 왜 low-effort Opus를 안 쓰나. 많은 벤치에서 태스크당 비용이 Opus보다 오히려 높다." 이유는 토큰 인플레이션이에요. Sonnet 5가 태스크를 풀 때 파일을 더 많이 읽고, 심지어 Java bytecode를 디컴파일하는 등 낭비 사례가 다수 보고되었습니다.

그러니까 1M 컨텍스트 프로모가 좋다고 무작정 매 태스크에 다 붓지 마세요. 두 개 원칙을 지키면 안전합니다. 하나, 컨텍스트를 통짜로 넣는 건 크로스파일 크로스히스토리 질문에만 쓰기. 둘, 짧은 태스크는 여전히 작은 컨텍스트로 처리하기.

FAQ

Q. 8월 31일 이후 프로모가 끝나면 어떻게 되나요?
A. 정가는 입력 $3/M, 출력 $15/M입니다. 50% 인상이라 대형 레포 통짜 로드 워크플로는 그때부터 비용 계산을 다시 해야 해요. 지금 두 달이 실험 창입니다.

Q. Claude Code에서 자동으로 Sonnet 5로 바뀌나요?
A. v2.1.197 이상이면 기본 모델로 승격됩니다. 기존 프롬프트 스타일이 Opus 기준으로 튜닝되어 있었다면 재조정이 필요할 수 있어요.

Q. 코딩에선 Opus 4.8이 여전히 더 낫나요?
A. 벤치마다 다릅니다. SWE-bench Pro는 Opus가 앞서고, Terminal-Bench는 Sonnet 5가 앞서요. 파일 편집·PR 스타일 태스크는 Opus, CLI 에이전트·DevOps 태스크는 Sonnet 5가 이론상 유리합니다.

마무리

1M 컨텍스트와 $2/M 프로모의 조합은 두 달짜리 실험 창입니다. 지금 안 해보고 넘어가면 정가로 돌아왔을 때 판단 근거가 없어져요. 대형 레포 하나 골라서 통짜로 부어보시는 걸 권합니다.

소스 원문: Anthropic 공식 발표 · TechCrunch 커버리지

0

댓글 0

아직 댓글이 없습니다