트렌드 · 3분 · 06.29

Anthropic은 풀고 Google은 묶었다 — 6월 마지막 주, 멀티 에이전트 비용 구조가 뒤집힌 이유

loopy vibecoder

#draft #Anthropic #Google #Gemini #rate limit #멀티에이전트 #Claude Code

핵심 요약 (TL;DR)

같은 48시간 안에 Anthropic은 Sonnet·Haiku의 rate limit을 Opus 수준으로 격상했고, Google은 Meta의 Gemini API 사용을 capacity 부족으로 제한했습니다. 멀티 에이전트 fan-out 비용 구조가 사실상 뒤집힌 주간이죠. Vertex AI single-vendor 의존은 위험 신호.

Anthropic이 풀어준 것 — 6/26 변경

Anthropic Claude Developer Platform이 6월 26일 공식 공지를 내보냈습니다. 원문은 한 줄이지만 함의가 큽니다 — "Claude Sonnet and Claude Haiku rate limits now match Claude Opus at every usage tier." 그리고 기존의 복잡한 모델별 RPM·ITPM·OTPM 한계를 폐지하고 Start / Build / Scale 3단으로 단순화했죠.

수치로 옮기면 이렇게 됩니다. Haiku 4.5(input $1, output $5/MTok)와 Sonnet 4.6(input $3, output $15/MTok)을 쓰던 사람이, 같은 RPM 한계 안에서 갑자기 Opus 4.8과 동일한 처리량을 받게 됐습니다. token당 비용은 5분의 1, throughput은 동일. r/ClaudeAI에서 한 사용자는 본인의 Haiku 4.5 quota가 18K RPM에서 60K RPM으로 점프했다는 스크린샷을 올렸고요(단일 사용자 보고이므로 본인 계정에서 확인 권장). Tier 1($5 credit)부터 자동 적용, 별도 신청 불요.

바로 이 한 줄이 멀티 에이전트 비용 구조를 흔듭니다. "Opus 한 명이 plan, Haiku 100명이 sub-task 병렬"이라는 fan-out 패턴은 원래 Haiku의 RPM 한계 때문에 막혀 있었습니다. 이제 그 병목이 사라졌습니다. Claude Code의 sub-agent 워크플로가 사실상 무료에 가까운 모드로 작동하기 시작한 거죠.

Google이 묶은 것 — Meta조차 거절당했다

같은 주, 정확히 이틀 뒤 FT가 단독 보도를 냈습니다. Google이 Meta의 Gemini API 사용을 capacity 부족으로 제한한다는 내용. CNBC, Yahoo Finance, Cybernews, Business Standard 등 와이어가 동일 인용했습니다.

시점은 약 3월부터. Meta는 자체 모델 Llama 4가 있음에도 Gemini를 사겠다고 줄을 섰고, Google이 안 팔겠다고 거절했습니다. 결과적으로 Meta 내부 AI 프로젝트가 지연됐고, 직원들에게 "AI 토큰을 더 효율적으로 써라"는 지침이 내려갔다고 합니다. 다른 Vertex AI 고객들도 정도는 덜하지만 영향권에 들었죠.

Sundar Pichai 본인이 이미 Q1 2026 Alphabet 컨퍼런스콜에서 cloud backlog가 거의 두 배 늘어 $460B 규모라고 인정했습니다. capacity 부족은 일시적 문제가 아니라 구조적 상태입니다.

메타 시그널 — 같은 주, 정반대 방향

두 사건을 겹쳐 보면 시장이 분기하는 그림이 보입니다.

Anthropic의 신호: "우리는 capacity가 남는다. 더 써라." Sonnet·Haiku에 Opus급 throughput을 풀어준 건 자신 있는 곳만 할 수 있는 액션입니다.
Google의 신호: "우리는 capacity가 모자르다. 다른 데 가라." Pichai 본인이 cloud backlog를 공식 인정했습니다.
결과: 단순한 가격 비교가 아니라 "실제로 받을 수 있는 양"의 비대칭이 시작됐습니다.

바이브코더가 6월 마지막 주에 결정해야 할 것

세 가지가 명확해졌습니다.

agent fan-out 패턴은 Anthropic stack으로 이전. Haiku 100개 병렬, Sonnet 30개 병렬이 동일 RPM 안에서 가능. Claude Code sub-agent 워크플로가 비용 곡선의 게임 체인저가 됩니다.
Vertex AI single-vendor 의존은 위험 신호. Latency 튀거나 quota 잘리는 경험이 우연이 아닙니다. 동일 모델군의 멀티 벤더 fallback 설계 필수.
Anthropic Tier upgrade는 5분 작업. Tier 1에서 Build로만 올려도 fan-out 가능 범위가 한 자릿수 늘어납니다. 본인 계정의 rate limits 페이지에서 확인하세요.

FAQ

Q. 내 Tier 1 계정에서도 진짜 RPM 올라갔나요?
자동 적용입니다. 본인 계정의 rate-limits 페이지에서 Haiku/Sonnet/Opus 옆 RPM 수치를 확인하세요. 셋이 같으면 적용된 상태입니다.

Q. Google capacity 부족은 단기 회복 가능한가요?
어렵습니다. Pichai 본인이 backlog가 거의 두 배라고 적시했고, 데이터센터·칩 공급은 분기 단위가 아니라 연 단위로 움직입니다. 6개월 내 회복 시나리오는 보수적으로 잡아도 어렵죠.

Q. 그럼 Gemini는 안 써야 하나요?
아닙니다. 단일 의존이 위험할 뿐입니다. 동일 작업을 Claude/Gemini/OpenAI 셋 다로 fallback 가능하게 짜두는 게 6월 말 stack 설계의 baseline이 됐습니다.

한 주에 두 frontier lab이 정반대로 움직이면, 6개월 뒤 stack 선택의 결과가 비용 곡선으로 돌아옵니다. 지금 옮기는 자가 다음 분기에 웃지 않을까요.