비교/리뷰 · 5분 · 05.15

Claude Code vs Codex vs Grok Build — 코딩 에이전트 3파전, 누구를 골라야 하나

loopy vibecoder

#draft #Claude-Code #Codex #Grok-Build #비교 #코딩에이전트 #3파전 #xAI

핵심 요약 (TL;DR)

2026년 5월 14일 xAI가 'Grok Build' Early Beta를 공개하면서 코딩 에이전트 CLI 시장이 Anthropic Claude Code · OpenAI Codex · xAI Grok Build 3파전 구도로 정리됐습니다. 컨텍스트 크기·병렬 에이전트 수·가격 모두 차별점이 다른데, 단기적으로는 Grok Build의 6개월 $99 프로모(공식 페이지 기준)가 흥미로운 비교 진입점입니다. 상황별 추천이 갈립니다.

왜 이 비교가 지금 의미가 있을까요

작년까지만 해도 "코딩 에이전트 CLI"는 사실상 Claude Code 한 곳의 게임이었습니다. 그런데 2026년 4월 Cursor가 "에이전트 우선 IDE"로 전환하고, 5월 14일 xAI가 Grok Build를 던지면서 시장 구도가 한 분기 만에 셋으로 늘어났습니다. 같은 날 Bloomberg가 "Musk's xAI unveils first coding agent in bid to rival Anthropic"이라는 헤드라인을 단 것도 이 맥락이에요. 본격적인 가격·스펙 경쟁이 시작된 거죠.

어떤 도구를 써야 할지 모르겠다면, 한 줄로 결론부터 정리하자면 — 모노레포라면 Grok Build, 안정성이면 Claude Code, OpenAI 생태계면 Codex 입니다. 이제 세부를 보겠습니다.

3종 비교표

항목	Claude Code	OpenAI Codex CLI	Grok Build (5/14 출시)
모델	Opus 4.7 (1M ctx)	GPT-5.5 / Daybreak	Grok 4.3 beta (16-agent Heavy)
컨텍스트	1M token	비공개 (단계별 차등)	2M token (공식 페이지 기준)
병렬 에이전트	단일 메인 + 서브에이전트	단일	최대 8개 (공식 페이지 기준)
TUI 스택	Node 기반	Node 기반	Rust + ratatui
가격 (월)	Max $200	ChatGPT Plus/Pro 묶음	SuperGrok Heavy $300, SuperHeavy $299(첫 6개월 $99 프로모)
Windows 네이티브	OK	OK	미지원, WSL/Git Bash 우회 권장
자동화 플래그	`-p` headless	`-p` headless	`-p` headless + ACP
IDE 통합	VS Code, JetBrains 등	VS Code	VS Code
비고	가장 성숙. Skills 생태계	OpenAI 모델 즉시 접근	Arena Mode는 로드맵 단계

참고로 위 표의 Grok Build 스펙(2M·8 병렬·Arena Mode)은 xAI 공식 페이지 발표 기준입니다. Arena Mode — 8개 에이전트의 출력을 알고리즘이 자동으로 랭크해 사람 리뷰 부담을 줄인다는 기능 — 은 출시 시점에 풀린 기능인지 로드맵 단계인지 외부 매체 보도가 엇갈리니, 실제 도입 전에 본인 계정에서 직접 확인해 보세요.

컨텍스트 크기 — 2M이 정말 가치 있을까요

숫자만 보면 Grok Build의 2M 컨텍스트가 압도적입니다. 그런데 본인이 다루는 코드베이스가 50만 토큰 이하라면 1M vs 2M의 실질 차이는 미미합니다. 2M이 진짜 차이를 만드는 시나리오는 두 가지예요.

첫째, 대형 모노레포. 회사 코드 전체를 통째로 로딩해 "이 변경이 어디까지 영향을 주나"를 한 번에 묻고 싶을 때. 둘째, 장기 세션의 누적 컨텍스트. 며칠짜리 리팩토링 작업에서 이전 결정과 미래 결정을 모두 컨텍스트에 들고 있을 때.

위 두 가지가 본인 워크플로에 해당하지 않으면, 컨텍스트 크기는 결정 변수가 아닙니다.

병렬 에이전트 — 8개가 4개보다 두 배 좋을까요

Grok Build의 또 다른 무기는 "최대 8개 동시 에이전트"입니다. 표면적으로는 매력적이지만, 8개를 동시에 굴리면 사람이 검토할 diff도 8배가 됩니다. 그래서 xAI가 Arena Mode라는 "자동 랭킹"을 함께 약속한 거예요 — 8개 출력 중 알고리즘이 상위만 추려서 사람 앞에 가져옵니다. 다만 Arena Mode가 출시 시점에 실제 사용 가능 상태인지 별도 확인이 필요합니다.

Claude Code도 서브에이전트 패턴으로 여러 작업을 병렬화할 수 있지만, 명시적으로 "8 concurrent"라는 숫자는 내세우지 않습니다. 대신 사용자가 작업 단위로 직접 fan-out하는 구조죠. 즉 Claude Code는 본인이 통제권을 갖는 패턴, Grok Build는 모델이 자율적으로 병렬화하는 패턴 — 철학이 다릅니다.

가격 — $99 프로모는 누구를 위한 미끼인가

Grok Build의 첫 6개월 $99/mo 프로모는 SuperHeavy 라인의 67% 할인입니다. Claude Code Max($200) 대비 절반 가격이라 단순히 비교하면 매력적이죠. 그런데 함정이 있습니다 — Grok Build는 Windows 네이티브 미지원이고 WSL 우회를 권장합니다. HN 댓글에서 가장 많이 지적된 약점이에요.

가격 매트릭스를 단순화하면 이렇습니다.

Claude Code Max $200/mo — 안정성·생태계·OS 호환·Skills. 가장 무난한 기본값.
Codex CLI — ChatGPT Pro/Plus 묶음으로 들어가니 OpenAI 생태계를 이미 쓰고 있다면 한계비용이 가장 낮음.
Grok Build $99 (첫 6개월 프로모) — 모노레포 또는 "새 도구 일단 한 번 깔아보자" 실험 용도.

상황별 추천

회사 코드가 100만 토큰을 넘는다면 → Grok Build의 2M 컨텍스트를 본인 워크플로로 1개월 테스트해 보세요. 프로모 가격이 6개월짜리 실험 비용으로 합리적입니다.
개인 프로젝트 위주에 안정성을 우선한다면 → Claude Code. Skills 생태계와 OS 호환이 가장 넓고 도입 자료가 가장 많습니다.
이미 ChatGPT Pro/Plus를 결제 중이라면 → Codex CLI부터 깔고 한계비용 0원으로 일단 써보세요.
Windows 네이티브 환경이라면 → Grok Build는 일단 후순위. WSL 우회를 감수할 만한 이유가 따로 있을 때만 진입.
PR 리뷰 부담이 큰 시니어라면 → Arena Mode가 실제 풀리면 Grok Build의 가치가 커집니다. 5월 말 다시 한 번 확인할 가치가 있어요.

자주 묻는 질문

Q. Cursor 3는 왜 비교에서 빠졌나요?
Cursor는 IDE이고 이 비교는 터미널 CLI 에이전트 3종에 집중했습니다. 다만 Cursor 3는 4월 출시 후 HN/Reddit에서 "$2k/week가 너무 비싸 Claude Code Max로 이탈"하는 후기가 다수 보이는 만큼, IDE를 고민 중이라면 별도 비교가 필요합니다.

Q. Grok Build의 한국 결제는 가능한가요?
출시 직후라 결제 경로가 안정화되지 않았을 수 있습니다. xAI 공식 페이지에서 본인 카드로 직접 확인하시는 게 안전합니다.

Q. 셋 다 깔아두고 골라 써도 되나요?
충분히 가능합니다. 작업 성격에 따라 라우팅하는 방식이 vibe-coder 커뮤니티의 새 표준이 되어가는 중입니다 — 안정성은 Claude Code, 모노레포는 Grok, OpenAI 모델이 필요하면 Codex.

마무리

3파전이 시작됐다는 건 vibe-coder에게는 좋은 신호입니다. 가격 압박이 들어와야 도구 품질이 빨라지니까요. 한국에서 새 도구를 도입할 때 가장 현명한 패턴은 "한 번에 한 도구"가 아니라 "본인 워크플로의 병목별로 다른 도구"입니다. 이번 주말 6개월 $99 프로모로 Grok Build를 1개월만 굴려보고, Claude Code와 동일 작업으로 비교 일지를 남겨보시면 어떨까요.

원본 발표: https://x.ai/news/grok-build-cli · HN 토론: https://news.ycombinator.com/item?id=48139115 · Bloomberg: https://www.bloomberg.com/news/articles/2026-05-14/musk-s-xai-unveils-first-coding-agent-in-bid-to-rival-anthropic