비교/리뷰 · 4분 · 05.23

AI 코딩 에이전트는 공간을 정말로 이해할까 — Pantheon 천장이 갈라낸 4.5/5 vs 1.4/5

loopy vibecoder

#draft #비교 #벤치마크 #3D #OpenSCAD #ModelRift #Antigravity #Claude-Sonnet-4.6 #Claude-Opus-4.7 #Cursor-Composer #Codex #spatial-reasoning

핵심 요약 (TL;DR)

ModelRift가 5월 22일 공개한 OpenSCAD 건축 벤치마크 결과, Google Antigravity 2.0 + Gemini 3.5 Flash가 4.5/5로 1위, Cursor Composer 2.5가 1.4/5로 최하위였습니다(HN 320점). 같은 prompt·같은 Pantheon 참조 이미지를 줬을 때 자율 에이전트 모드에서 천장의 사각 coffered 패턴까지 구현한 건 Antigravity뿐이었습니다. 단 단일 시도 기준이라 표본 크기 한계는 명시해야 합니다.

어떤 AI 에이전트가 공간을 정말로 이해할까

3D 모델링이나 CAD, 하드웨어 쪽으로 바이브코딩을 해보려는 분들이 부딪히는 첫 질문이 있습니다. "Claude로 할까, Cursor로 할까, Codex로 할까." 텍스트나 일반 웹앱 짜는 거랑은 다르거든요. 공간 좌표·기하·구조 관계를 얼마나 정확히 잡는지가 결과물의 모든 것을 결정합니다.

ModelRift라는 parametric 3D modeling 플랫폼 회사가 5월 22일 이 질문에 정면으로 답하는 벤치마크를 풀었습니다. 과제는 단순합니다 — 로마 Pantheon 사진 2장을 주고, OpenSCAD 코드로 디지털 복원하라. OpenSCAD는 코드로 3D 모델을 만드는 도구입니다. 점·선·면이 아니라 "높이 10인 원기둥을 중심에서 30도 회전" 같은 명령으로 모양을 빚는 거죠. 즉 "이미지 → 공간 추론 → parametric CAD 코드" 변환 능력 그 자체를 측정합니다.

HN에서 320점·126댓글로 떴고, 결과는 다음과 같습니다.

점수표 (Pantheon 디지털 복원, 5점 만점)

도구	점수	주요 특징
Google Antigravity 2.0 + Gemini 3.5 Flash	4.5	오큘러스 너머 천장의 사각 coffered 패턴 구현, inscription 포함, 유일한 자율 에이전트 1위
ModelRift + Gemini Flash 3.0	3.8	human-in-the-loop 승자, visual feedback 반영
Claude Sonnet 4.6	3.4	첫 batch 중 가장 깨끗한 비율
Codex 5.5 High	3.0	밀도는 높은데 export/preview mismatch
Claude Opus 4.7	3.0	Cursor보다 완성도 있으나 단색
Cursor Composer 2.5	1.4	가장 빠르지만 출력 가장 약함

전부 동일 prompt·동일 참조 이미지·동일 OpenSCAD 환경에서 측정됐습니다.

Antigravity가 갈라낸 "천장 격자"

가장 인상적인 디테일은 Antigravity가 천장의 사각 coffered ceiling 패턴까지 구현했다는 점입니다. Pantheon 천장에는 가운데 원형 oculus(구멍)가 있고, 그 주위로 사각 격자가 다섯 단 동심원으로 둘러져 있어요. 사진에서는 빛 각도에 따라 그림자로만 보이는 디테일인데, Antigravity는 그걸 "보고" → "기하 관계 추론" → "OpenSCAD difference() 연산으로 재현" 까지 풀어냈다는 뜻입니다.

반면 Cursor Composer 2.5는 1.4/5에 그쳤습니다. 가장 빨랐지만 출력이 가장 약했고요. 둥근 형태도 못 잡고 비율도 어긋났습니다. "속도가 빠르다 ≠ 공간을 이해한다"가 점수로 깔끔하게 갈렸어요.

여기서 한 가지 짚어둘 점. ModelRift 자체 도구가 2위(3.8)에 든 건 벤치마크를 만든 회사 본인 도구라는 conflict of interest가 있습니다. ModelRift 점수는 좀 더 보수적으로 보시고요. 또 모든 점수는 단일 시도 기준입니다. HN 댓글의 "one 3d model is not enough" 비판이 정확하고, 통계적으로 robust한 결론은 아니에요.

상황별 추천

위 결과를 그대로 도구 선택 기준으로 옮겨보면 이렇습니다.

3D·CAD·하드웨어 작업이라면 Antigravity 2.0 (또는 Gemini 3.5 Flash 직접) — 단 한 가지 카테고리에서 명확하게 갈렸습니다. 공간 추론이 결과물의 1순위 변수라면 다른 모델로 갈 이유가 약합니다.

일반 웹앱·문서 작업이면 Claude Sonnet 4.6 또는 Opus 4.7 — 이 벤치마크는 공간 추론만 측정한 거지, 추론·코드 품질·tool use 종합은 별개입니다. 3D가 아닌 영역에선 Claude의 강점이 다른 차원에서 발휘됩니다.

속도가 최우선이면 Cursor Composer 2.5 — 단순 자동완성이나 빠른 보일러플레이트 생성에선 여전히 유효합니다. 다만 공간 추론이 필요한 작업에는 안 어울려요.

human-in-the-loop이 가능하면 ModelRift 같은 visual feedback 도구 — 자율 에이전트가 한 번에 못 풀어도, 사람이 매 단계 "이건 비율이 이상해" 피드백을 주면 점수가 0.5점 가까이 올라갑니다. 정밀도가 중요한 프로토타이핑은 이 모드가 권장됩니다.

한 가지 같이 본 사례

HN 톱 댓글 jhot가 같은 쓰레드에 던진 실사용 증언이 있습니다. "자전거 부품 caliper로 측정값을 재서 Claude한테 parametric OpenSCAD 짜게 하고, 3D 프린트했더니 post-generation 조정이 거의 없었다." 즉 벤치마크가 아닌 실제 일상 작업에서는 Claude도 충분히 쓸 만하다는 거예요. 한 번에 Pantheon 같이 복잡한 대상을 풀어내라고 시키면 갈리는 거지, 작은 부품 하나 짤 때는 다 같이 잘합니다.

벤치마크는 도구 선택의 첫 신호이지 마지막 답이 아닙니다. 본인이 다룰 작업의 복잡도가 "caliper 한 개의 부품"에 가까운지 "Pantheon 통째"에 가까운지를 먼저 보고, 그 다음에 위 점수표를 참고하시면 됩니다.

FAQ

Q. Antigravity 2.0은 어디서 쓸 수 있나요?
Google이 5월 19일 I/O에서 풀어둔 자율 에이전트 환경입니다. Gemini 3.5 Flash와 묶여서 동작하고요. 일반 사용자도 Google AI Studio 경로로 접근 가능합니다.

Q. OpenSCAD 안 써봤는데 시작점이 있나요?
공식 사이트(openscad.org)에서 무료 다운로드 가능하고, cylinder()·cube()·difference() 세 함수만 알아도 단순 모델은 만들 수 있습니다. AI에 "높이 10mm 사각형에 지름 3mm 구멍 5개 뚫어줘" 같은 자연어 요청을 던지면 코드로 받아볼 수 있어요.

Q. 단일 시도 기준이면 결과가 운빨일 수도 있지 않나요?
맞습니다. ModelRift도 그 한계를 인정한 상태고요. 다만 1.4 vs 4.5처럼 점수 격차가 큰 경우엔 운빨로 뒤집기 어려운 차이입니다. 3.0~3.8 사이 도구들의 순위는 운으로 뒤집힐 여지가 있다고 보시면 됩니다.

소스: https://news.ycombinator.com/item?id=48234090 / https://modelrift.com/blog/openscad-llm-benchmark/