AI가 AI 코드를 검수한다 — Cursor의 답과 ARC가 보여준 벽
핵심 요약 (TL;DR)
Cursor가 4/30 모든 PR에 자동으로 붙는 Security Review를 Teams/Enterprise에 출시했습니다. 같은 주 ARC Prize 재단은 GPT-5.5와 Opus 4.7이 ARC-AGI-3 사적 셋에서 각각 0.43%·0.18%에 멈춘 분석을 공개했죠. 같은 주, 한쪽은 "AI가 AI 코드를 검수한다"는 답을 냈고 한쪽은 "그 AI들이 똑같이 빠지는 3가지 추론 함정"을 명명한 겁니다.
한 달 사이 다섯 건의 사고, 그리고 응답
4월 한 달 동안 바이브코더 사이를 흔든 사고가 다섯 건이었습니다. Lovable에서 48일간 노출된 BOLA, Bitwarden CLI를 통한 90분짜리 백도어, PocketOS의 9초 DB 삭제, Apple Support 5.13 빌드에 통째로 들어간 CLAUDE.md 두 개. "AI가 짠 코드를 그대로 프로덕션에 올린다"는 워크플로가 가진 비용을 한 달 내내 시장이 청구한 셈이죠.
4월 30일, Cursor가 답을 냈습니다. 공식 changelog(cursor.com/changelog/04-30-26) 기준 두 컴포넌트로 구성된 always-on 보안 에이전트입니다.
- Security Reviewer: 모든 PR에 자동으로 붙어서 보안 취약점, auth regression, privacy/data-handling 위험, 에이전트 도구 자동 승인 위험, 그리고 프롬프트 인젝션 공격까지 검사합니다. 정확히 어느 diff 위치에 어떤 severity의 어떤 remediation을 적용해야 하는지 inline comment로 답니다.
- Vulnerability Scanner: 코드베이스 정기 스캔으로 알려진 CVE와 오래된 의존성, 잘못된 설정을 잡아 Slack으로 푸시합니다.
핵심은 사람이 reviewer로 끼지 않는다는 점입니다. AI가 짠 코드를 또 다른 AI가 검수하는 것. 이 메타-바이브코딩의 첫 1차 도구가 등장한 거죠.
같은 주, ARC가 보여준 다른 그림
5월 1일, ARC Prize 재단은 정반대 결의 데이터를 풀었습니다(arcprize.org/blog/arc-agi-3-gpt-5-5-opus-4-7-analysis). GPT-5.5는 ARC-AGI-3 사적 셋에서 0.43%, Opus 4.7은 0.18%. 한 게임당 약 $10K의 추론 비용을 쓴 결과입니다(이 비용 환산은 ARC Prize 본문이 아니라 the-decoder 정리 기준입니다).
더 흥미로운 건 두 모델이 똑같이 빠지는 3가지 시스테매틱 실패 패턴입니다.
- Local Effect / False World Model — "이 버튼을 누르면 객체가 회전한다"는 로컬 관찰을 "회전이 다음 단계 결과를 결정한다"는 글로벌 룰로 압축하지 못합니다.
- 훈련 데이터 게임 오인 — 처음 보는 환경을 Tetris·Frogger·Sokoban·Breakout처럼 익숙한 게임으로 가정해버립니다. GPT-5.5는 ls20 환경을 Breakout으로 해석했지만 실제로는 키 조합 게임이었죠.
- 단기 성공의 잘못된 학습 — 첫 레벨을 풀면 그 가설을 너무 일찍 굳혀, 다음 레벨에서 더 빠르게 무너집니다.
코딩 에이전트로 매일 보는 그 패턴 그대로입니다. 이 함수가 무엇을 하는지는 알지만 이 시스템이 어떤 패턴인지는 못 끌어올리는 것, 모르는 라이브러리를 익숙한 라이브러리처럼 가정해버리는 것, 첫 시도가 통하면 그걸 정답이라 굳혀버리는 것.
검수도 AI에 맡긴다는 결정의 진짜 의미
여기서 두 사건을 같이 놓고 봐야 그림이 잡힙니다. Cursor의 답은 "AI가 PR마다 보안 검수를 해준다"는 것이고, ARC의 그림은 "그 AI가 자기가 처음 보는 시스템을 익숙한 시스템으로 가정해버린다"는 것이죠. 검수 모델이 이 함정에서 자유롭다는 보장이 있을까요.
같은 주 Veracode가 Spring 2026 보고서에서 신규 플래그십(GPT-5.1/5.2, Claude 4.5/4.6, Gemini 3) 모두 보안 패스율이 약 55%에서 정체됐다고 발표한 것도 같은 신호입니다. Veracode 자체가 보안 스캐너 회사라는 이해관계는 감안해야 하지만, 모델 세대가 바뀌어도 보안 영역의 정확도는 한계에 부딪혀 있다는 그림입니다.
그래서 Cursor Security Review가 의미 없다는 건 아닙니다. 사람 reviewer 없이 한 번이라도 더 보는 눈이 PR마다 붙는다는 건 분명한 진보입니다. 다만 이게 "안전을 추가"하는 게 아니라 "책임을 한 단계 더 분산"시키는 구조라는 걸 봐야 합니다. 사고가 났을 때 "AI가 검수해줬는데도 못 잡았다"는 답이 "왜 사람이 안 봤냐"보다 더 무거워질 수 있는 거죠.
FAQ
Q. Cursor Security Review는 어떤 플랜에서 쓸 수 있나요?
Teams/Enterprise 플랜 베타로 4/30 출시되었습니다. Pro 단일 요금제는 아직 포함되지 않았습니다.
Q. ARC-AGI-3 점수가 0.43%면 모델이 무능하다는 뜻인가요?
사적 셋(private set) 점수입니다. 공개 셋에선 점수가 더 높을 수 있다는 단서가 원문에 명시되어 있고, ARC-AGI-3는 일반 코딩이 아니라 추상 추론 능력을 시험하는 벤치마크입니다. 일상 코딩 능력과 직접 비례하진 않지만, 처음 보는 시스템에 대한 일반화 능력의 상한을 보여주는 데이터로 보면 됩니다.
Q. 그래서 vibe-coded 코드를 그대로 프로덕션에 올려도 되나요?
4월 한 달 사고 다섯 건이 답입니다. AI 검수가 추가됐다고 사람 검수를 빼는 건 두 단계 위험입니다. 한 단계만 빼는 정도가 안전한 출발점이라는 게 지금까지 시장이 청구한 비용입니다.
루피의 결론은 단순합니다. "네 코드 한 번 더 보겠다는 AI가 있으면 좋다. 다만 그게 사람을 대체하는 게 아니라, 한 단계 더한 책임 분산이라는 걸 봐야 한다."
댓글 0
아직 댓글이 없습니다