인사이트 · 2분 · 04.19

Opus 4.7 업그레이드해야 할까 — MRCR 급락과 토큰 비용 증가의 진실

loopy vibecoder

#draft #Claude #Opus 4.7 #Anthropic #벤치마크 #바이브코딩 #MRCR

핵심 요약 (TL;DR)

Claude Opus 4.7이 출시 3일 만에 거센 백래시에 직면했습니다. 장문맥 성능 지표 MRCR이 78.3%에서 32.2%로 급락했고, 토크나이저 변경으로 동일 입력의 토큰 소비량이 최대 35% 증가했습니다. 비전과 코딩 벤치마크는 향상됐지만, 대규모 프로젝트를 다루는 바이브코더라면 4.6 유지를 고려해볼 만합니다.

성적이 떨어지니까 시험지를 바꾸겠다?

Opus 4.7에서 가장 논란이 된 건 MRCR 벤치마크 결과입니다. MRCR은 긴 문맥에서 정보를 검색하고 추론하는 능력을 측정하는 테스트인데, Opus 4.6의 78.3%에서 Opus 4.7은 32.2%로 급락했습니다. 거의 절반 이하로 떨어진 거죠.

Anthropic 측은 "Graphwalks라는 새로운 메트릭으로 전환 중"이라고 설명했지만, 커뮤니티의 반응은 냉랭했습니다. HackerNews에서는 수백 개의 댓글이 달린 토론이 벌어졌고, 핵심 비판은 명확합니다. 기존 시험에서 점수가 떨어지면 실력을 올려야지, 시험지를 바꾸는 게 답이냐는 거죠.

스텔스 가격 인상이라는 비판

두 번째 논란은 토크나이저 변경입니다. Opus 4.7은 동일한 입력에 대해 토큰 소비량이 최대 35% 증가합니다. API 명목 가격은 그대로인데, 같은 작업에 더 많은 토큰이 소모되니 실질 비용이 올라가는 구조입니다. 커뮤니티에서 "스텔스 가격 인상"이라고 부르는 이유거든요.

바이브코더에게 이건 직접적인 지갑 문제입니다. API 기반으로 프로젝트를 운영하고 있다면, 같은 워크플로우에 더 많은 비용이 들 수 있다는 뜻이니까요.

바이브코더가 지금 해야 할 판단

모든 게 나빠진 건 아닙니다. Decrypt 리뷰에 따르면 비전 능력과 코딩 벤치마크에서는 향상이 있었습니다. 하지만 장문맥 성능 저하는 대규모 코드베이스를 다루는 작업에서 치명적일 수 있습니다. 긴 파일을 분석하다가 앞부분 내용을 "까먹는" 현상이 생길 수 있으니까요.

Reddit r/ClaudeAI에서는 "4.6으로 돌아가는 법" 가이드가 인기 게시물로 올라왔고, 많은 개발자가 "당분간 4.6에 머물겠다"고 선언하고 있습니다. Claude Code에서 정상 코드를 멀웨어로 오탐하는 사례까지 보고되면서 불만은 더 커지고 있습니다.

지금 시점에서 현실적인 전략은 이렇습니다. 짧은 프롬프트 위주의 작업이라면 4.7을 시도해볼 만하고, 대규모 프로젝트나 긴 문맥이 중요한 작업이라면 4.6을 유지하는 게 안전합니다. Anthropic의 후속 패치가 나올 때까지는 보수적으로 접근하는 게 현명할 수 있습니다.

FAQ

Opus 4.6으로 돌아갈 수 있나요?

API 사용자라면 모델 ID를 명시적으로 지정해서 4.6을 계속 사용할 수 있습니다. Claude Code 사용자는 설정에서 모델 버전을 변경할 수 있습니다.

MRCR 급락이 실제 사용에 어떤 영향을 주나요?

긴 코드 파일이나 여러 파일을 동시에 참조하는 작업에서 정확도가 떨어질 수 있습니다. 특히 수천 줄 이상의 코드베이스를 한 번에 분석하는 경우, 앞부분의 맥락을 놓치는 현상이 나타날 수 있습니다.

토크나이저 변경을 피할 방법이 있나요?

API를 사용한다면 4.6 모델을 지정하면 이전 토크나이저가 적용됩니다. 4.7을 사용하면서 비용을 줄이려면, 프롬프트를 더 간결하게 작성하고 불필요한 컨텍스트를 줄이는 방식으로 대응할 수 있습니다.