비교/리뷰 · 4분 · 05.29

Claude Opus 4.8 vs xAI Grok Build 0.1 — 같은 주에 등장한 두 코딩 에이전트, 어떤 걸 골라야 할까요

loopy vibecoder

#draft #Claude-Opus-4.8 #Grok-Build #코딩에이전트 #비교 #SWE-Bench #Fast-Mode #API-가격 #모델비교

핵심 요약 (TL;DR)

5월 28일 같은 날, 코딩 에이전트 전용 모델 두 개가 동시에 등장했습니다. Claude Opus 4.8(SWE-Bench Pro 69.2%, Fast Mode 가격 3배 인하)과 xAI Grok Build 0.1(SWE-Bench Verified 70.8%, API $1/$2 per M tokens). 벤치마크가 달라 정면 비교는 무리지만, 가격은 Grok Build가 1/5, 모델 깊이·정렬·생태계는 Opus 4.8이 우위입니다. 상황별로 어떤 걸 골라야 하는지 정리했어요.

같은 주, 두 모델이 동시에 도착했습니다

코딩 에이전트를 쓰는 1인 개발자 입장에서 5/28은 결정의 날이었습니다. 오전엔 Anthropic이 Opus 4.8을 풀었고, 같은 주에 xAI가 Grok Build 0.1을 퍼블릭 베타로 열었어요. 둘 다 "코딩 전용 에이전트 모델"이라는 같은 카테고리를 노렸고, 둘 다 자기 벤치마크에서 1위라고 주장합니다.

먼저 알려드릴 점 하나. 두 모델의 SWE-Bench 점수는 같은 벤치마크가 아닙니다. Opus 4.8은 SWE-Bench Pro 69.2%, Grok Build 0.1은 SWE-Bench Verified 70.8%. 평가 데이터셋이 다르므로 숫자만 보고 "Grok이 1.6%p 위" 같은 결론은 위험합니다. 그래서 이 글에선 점수만 나열하기보다 상황별 적합도로 풀어보려 합니다.

한눈 비교표

항목	Claude Opus 4.8	xAI Grok Build 0.1
출시일	2026-05-28	2026-05-27(모델) / 5-28(API 베타)
벤치마크	SWE-Bench Pro 69.2% (GPT-5.5 58.6% 압도)	SWE-Bench Verified 70.8% (xAI 자체 발표)
에이전트 작업	Online-Mind2Web 84%, OSWorld-Verified 83.4%	Artificial Analysis 에이전틱 인덱스 68.7 (자체 측정)
표준 API 가격	$5 / $25 per M tokens	$1 / $2 per M tokens (캐시드 입력 $0.20)
Fast Mode	$10 / $50 (이전 대비 3배 인하)	별도 등급 없음
컨텍스트	표기 외 (Anthropic 공식)	256K
병렬 sub-agent	수백 개 dynamic workflows	8개 (CLI 기준)
정렬·안전	Mythos Preview에 근접한 정렬 (자체 평가)	공식 정렬 평가 미공개
생태계	Claude Code, Cursor, Windsurf 등 광범위 통합	Grok Build CLI 중심 (IDE 통합 추가 중)
가입 부가 비용	API 외	CLI는 도입 6개월 한정 $99/월 (정가 $299/월)

수치 출처는 Anthropic 공식, The Decoder, OfficeChai 벤치마크 리뷰, Grok Build는 pricepertoken와 ChatForest 리뷰 기준입니다.

그래서, 어떤 상황에 어떤 걸 골라야 할까요

Opus 4.8을 고를 상황

복잡한 코드베이스에 들어가는 에이전트 작업이면 Opus 4.8입니다. SWE-Bench Pro는 Verified보다 난이도가 더 높은 데이터셋이고, 거기서 69.2%는 GPT-5.5(58.6%)·Gemini 3.1 Pro(54.2%)를 압도하는 숫자예요. 더 결정적인 건 컴퓨터 유즈 — Online-Mind2Web 84%, OSWorld-Verified 83.4%. 브라우저 자동화나 실제 OS 컨트롤이 필요한 작업에서 체감 차이가 큽니다.

또 하나, "버그를 못 잡고 넘어가는 빈도가 약 4배 감소"했다고 The Decoder가 보고했어요. 코드 리뷰 단계에서 false negative가 줄었다는 뜻인데, 시니어 개발자가 옆에서 검수해주는 효과에 가까워졌다는 의미입니다. Fast Mode가 3배 인하(이전 Claude Fast Mode 대비)된 점도 무시할 수 없어요. 단가가 떨어졌으니 평소엔 Fast Mode, 정밀 작업엔 표준 모드를 섞는 패턴이 합리적입니다.

Grok Build 0.1을 고를 상황

비용에 민감한 실험·프로토타이핑·반복 작업이면 Grok Build가 강합니다. $1/$2 per M tokens는 Opus 4.8 표준 가격의 정확히 1/5. 256K 컨텍스트가 표준이고, CLI에서 8개 sub-agent 병렬이 기본으로 굴러갑니다. 한국에서 API 비용을 빠듯하게 관리하는 1인 개발자한테는 "일단 한 번 굴려보자"가 부담 없는 선택지예요.

다만 두 가지 단서를 부드럽게 짚어드릴게요.

SWE-Bench Verified 70.8%는 xAI 자체 발표 기반입니다. 외부 독립 재현 자료는 아직 충분치 않아요.
CLI 가격 $99/월은 도입 6개월 한정 프로모션이고, 정가는 $299/월입니다. 7개월차부터 비용 구조가 달라진다는 점은 가입 전에 계산해두시는 게 좋습니다.

한국 바이브코더에게 가장 현실적인 조합

둘 중 하나를 평생 골라야 하는 건 아니에요. 가장 현실적인 조합은 이렇게 정리됩니다.

메인 워크플로 = Opus 4.8 Fast Mode. 가격이 3배 인하됐고, 에이전트·컴퓨터 유즈 성능이 압도적입니다. Claude Code 생태계도 그대로 쓸 수 있어요.
사이드 실험 = Grok Build 0.1 API. 토큰 단가가 1/5이라 "Claude로 안 풀리는 케이스 한 번 더 굴려보자" 같은 보조 도구로 쓰기 부담 없습니다.
CLI 도입은 신중. Grok Build CLI는 6개월 프로모션 끝나면 $299/월. 데일리 드라이버로 Grok Build CLI를 굳히는 결정은 7개월차 비용까지 계산하고 들어가시면 좋겠습니다.

자주 묻는 질문 (FAQ)

Q. SWE-Bench Pro와 Verified는 뭐가 다른가요?
둘 다 GitHub 이슈를 모델이 직접 해결하는지 측정하는 벤치마크인데, Pro는 더 어려운 케이스만 추린 상위 집합입니다. 그래서 Pro 69.2%와 Verified 70.8%를 단순 비교하면 안 됩니다. 같은 카테고리의 다른 시험지라고 보시면 돼요.

Q. Mythos급 정렬이라는 표현, 진짜인가요?
Anthropic 공식은 "Mythos Preview에 근접한 정렬"이라고 적었습니다. 동등이 아니라 근접. 그리고 이 평가는 Anthropic 자체 평가 기반이라 외부 레드팀의 독립 검증을 기다리는 단계입니다.

Q. Cursor에서 Grok Build를 바로 쓸 수 있나요?
2026-05-29 기준 Grok Build CLI는 자체 터미널 에이전트 중심이고, IDE 통합(Cursor·VS Code)은 확장 중인 단계입니다. 기존 IDE 워크플로를 유지하시려면 Opus 4.8이 안정적입니다.

마지막 한 마디

코딩 에이전트 시장이 같은 주에 "최고 성능 모델 출시"와 "1/5 가격 경쟁자 등장"을 동시에 받았습니다. 5/28은 단순히 모델 두 개가 나온 날이 아니라, 코딩 AI의 가격·성능 곡선이 한 칸씩 옆으로 움직인 날이에요. 어느 한쪽으로 줄을 서기보다, 두 모델 사이에서 본인 워크플로의 어디가 비용 민감 구간이고 어디가 정밀도 민감 구간인지 한 번 정리해보시는 주말이 되면 좋겠습니다.