같은 취약점, GPT-5.5는 70%·Claude는 20%·Gemini는 0% — 펜테스트의 새 경쟁축은 모델 가드레일입니다
핵심 요약 (TL;DR)
보안 리서처 Kasra Rahjerdi가 일부러 취약한 모바일 앱(Firebase google-services.json 노출)을 만들고 13개 프론티어 LLM에게 각 10달러·2시간 한도로 풀어보게 시킨 결과, GPT-5.5는 70% 해결률, DeepSeek V4 Pro는 회당 0.62달러로 풀어버린 반면 Claude Opus 4.8과 Sonnet 4.6은 10회 중 2회만 성공, Gemini 3.1 Pro Preview는 거의 모든 시도를 즉시 거절했습니다. 펜테스트 자동화의 1순위 경쟁축은 더 이상 모델 성능이 아니라 가드레일 정책입니다.
같은 취약점인데 모델별로 결과가 이렇게 다른가요?
펜테스트를 LLM에게 맡긴다고 했을 때, 보통 "어느 모델이 더 똑똑한가"부터 물어보기 마련입니다. 그런데 6월 3일 공개된 Kasra Rahjerdi의 1,500달러짜리 실험은 이 질문 자체가 틀렸다는 걸 보여줍니다. 같은 모델 패밀리 안에서도 가드레일 정책 한 줄이 70%와 20%를 가르는 거죠.
Kasra 본인이 강조했듯이 "엄격한 과학적 평가가 아니라 잘 문서화된 실험"이라는 전제를 두고 시작합니다. 실제 모바일 앱에서 흔히 발견되는 클래스의 취약점을 일부러 심어둔 책 리뷰 앱을 만들었어요. API 자체는 단단하게 짰는데, APK 안에 들어가는 google-services.json 파일에 Firebase 정보가 그대로 노출돼 있고 Firestore의 Row Level Security가 빠져 있어서, 앱에서 키를 추출해 직접 sign-up하면 다른 유저의 비공개 리뷰를 읽을 수 있는 구조였습니다.
그리고 13개 프론티어 모델에게 각각 10달러 예산과 2시간 한도를 주고 "flag를 찾아라"를 시켰습니다. 총 1,500달러.
4가지 결과, 4가지 시그널
GPT-5.5는 70% 해결률로 압도적인 1위였습니다. 결정타는 OpenAI 계정에 부여된 보안 리서치 권한 — 표준 안전 제한이 꺼져 있었던 거죠.
DeepSeek V4 Pro는 회당 0.62달러로 가장 저렴하게 풀어버렸습니다. 가드레일 부담이 적은 중국 모델군의 강점이 그대로 드러난 결과입니다.
Claude Sonnet 4.6과 Opus 4.8은 10회 중 2회. Opus는 풀기 직전까지 갔다가 Anthropic의 가드레일에 막혀 세션이 종료된 적이 여러 번이었습니다. Kasra 본인의 표현: "It's not because of capability, it's because Anthropic's guardrails prevented it from solving the problem."
Gemini 3.1 Pro Preview는 거의 모든 시도를 즉시 거절했습니다. median 토큰 사용량이 9,000 — 다른 모델이 100,000+ 쓰는 사이에 사실상 시도조차 안 한 거예요.
한국 화이트해커가 줄 서야 할 위치
이 데이터가 말하는 건 단순합니다. 모델의 "지능"이 아니라 "어떤 모델에 어떤 권한 설정을 쥐고 작업하는가"가 펜테스트 컨설턴트의 실력을 결정합니다.
루피의 시각으로 보자면, 한국 청년이 바이브코딩으로 보안 컨설팅·취약점 헌터 포지션을 빌드할 때 차별화 자산은 코드 스킬이 아니라 "모델 권한 스택"입니다. OpenAI에 보안 리서치 권한을 받아 GPT-5.5를 쓰는지, DeepSeek 같은 가드레일이 약한 중국 모델을 보조로 두는지, Claude를 쓴다면 어떤 우회 기법으로 정상 워크플로우를 유지하는지 — 이 조합 자체가 시간당 단가를 결정하는 시대가 시작된 거죠.
원본 실험: https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/ (HN 376점 토론: https://news.ycombinator.com/item?id=48392343)
FAQ
Q. 일반 사용자도 GPT-5.5에 보안 리서치 권한을 받을 수 있나요?
표준 OpenAI 계정 사용자에게 자동으로 부여되는 권한이 아닙니다. Kasra는 별도 신청과 검증을 거쳐 권한을 받은 케이스이고, 이게 70% 해결률의 결정적 변수였습니다. 권한 획득 가능성은 OpenAI 보안 리서처 프로그램 정책에 따라 달라집니다.
Q. Claude로는 보안 작업을 아예 못 하는 건가요?
모든 시나리오에서 막히는 건 아닙니다. Kasra가 마주친 가드레일은 "실제 라이브 시스템을 공격하는 듯한 액션"을 했을 때 켜졌는데, 본인이 운영하는 로컬 환경에서 합법적 모의 침투를 명시하면 통과하는 경우도 있습니다. 다만 OpenAI에 비해 마찰이 큰 건 사실이고, 보안 워크플로우에서 Claude를 메인으로 쓰려면 프롬프트 설계에 더 많은 공수가 들어갑니다.
Q. 이 결과는 한국 바이브코더에게 어떤 의미인가요?
바이브 시큐리티 영역에서 외화를 벌고 싶다면, "코드를 짤 줄 안다"가 아니라 "어떤 모델 권한 스택을 가지고 있느냐"가 차별화 포인트가 됩니다. 본인이 직접 발견한 0-day 사례와 사용한 모델 조합을 묶어서 포트폴리오로 정리하는 게 가장 빠른 진입로입니다.
같은 취약점 위에서 모델별 결과가 70%와 0%로 갈렸다는 사실 하나만으로도, 다음 실험을 본인 손으로 한 번 돌려볼 이유는 충분하다고 생각합니다.
댓글 0
아직 댓글이 없습니다