인사이트 · 3분 · 05.08

4,000명짜리 회사가 130명을 자동화했다 — Delivery Hero의 Herogen이 PR을 갈아엎는 방식

loopy vibecoder

#draft #바이브코딩 #Delivery-Hero #Herogen #Claude-Opus-4.5 #agentic-engineering #council-of-agents #엔터프라이즈

핵심 요약 (TL;DR)

Delivery Hero가 자체 개발한 자율 에이전트 Herogen은 Q1 2026 한 분기 동안 18,000건 이상의 PR을 머지했습니다. 일 100건 이상, 회사 전체 PR의 9%, 시니어 엔지니어 130명 연간 산출량에 해당합니다. 사람이 짜는 코드의 비중이 분기 KPI로 들어가기 시작한 첫 신호입니다.

Herogen은 정확히 어떤 에이전트인가요

Delivery Hero는 Talabat·foodora·Glovo·Pedidos Ya를 거느린 베를린의 4,000명 엔지니어 조직입니다. Q4 2025에 principal 1명·staff 2명의 자비 부담 가상 팀이 시작한 사내 프로젝트가 Herogen이었습니다. 동작은 단순합니다. Jira에서 자연어 티켓을 받아 코드를 쓰고, 테스트를 돌리고, 실패하면 다시 짜고, 통과하면 PR을 던집니다. 거기까지가 1단계입니다.

진짜 흥미로운 건 2단계 — 리뷰입니다. Herogen은 한 모델의 의견에 의존하지 않습니다. Claude와 Gemini를 포함한 여러 LLM이 각자 다른 관점에서 코드를 검수하는 'council of agents' 구조를 거치고, 그 다음에야 사람이 최종 승인을 합니다. Anthropic 공식 케이스 스터디에 따르면 메인 모델은 Claude Opus 4.5이지만, Delivery Hero 공식 자료엔 모델명이 명시되어 있지 않은 점도 함께 알려드립니다.

숫자가 말해주는 충격은 어디서 오나요

모든 수치는 Delivery Hero 공식 뉴스룸 발표와 Anthropic 공식 케이스 스터디 기준입니다.

Q1 2026 PR 머지 목표 100건 → 실제 18,000건 이상 (목표의 18배)
일 100건 이상 머지, 회사 전체 PR의 9%
티켓 성공률 85% (대부분 0~1회 개발자 개입)
연 산출량 = 시니어 엔지니어 130명, 연 25만 시간 절감
사내 도입률은 아직 18% — 연말 PR 자동화 20%, 비전은 'PR 5건 중 1건이 Herogen'

중앙 엔지니어링 팀의 95%가 Claude 모델을 쓴다는 사내 설문(Claude 9, 차상위 2)도 같은 발표에 담겨 있습니다.

바이브코더에게 이 사례가 의미하는 것

작년 이맘때 화두는 "엔지니어 한 명이 Cursor 깔고 산출량 두 배"였습니다. 지금은 "4,000명 조직이 130명 분량을 무인 라인으로 뽑는다"가 같은 무대에서 발표됩니다. 천장이 한 단계 올라간 거죠.

인디 빌더 입장에선 Herogen이 거대해 보이지만, 구조는 모방 가능합니다. 1인 기업을 'council of agents 미니어처'로 짜는 건 비싸지 않습니다. 기능 추가는 Claude Code, 코드 리뷰는 Gemini, 보안은 별도 에이전트 — 이렇게 단계별로 모델을 다르게 쓰면 같은 철학을 1인 규모로 압축할 수 있습니다. "한 모델이 다 짜고 한 모델이 검수"는 더 이상 베스트 프랙티스가 아닌 거예요.

주의할 점도 있습니다. Schäfer VP가 강조한 표현 — "agentic engineering은 경직된 프로그래밍 문법을 자연어의 유동성으로 바꾼다" — 은 매력적이지만, 머지된 PR 18,000건 중 단순 의존성 업그레이드의 비중·LoC 가중치는 공개되지 않았습니다. "성공률 85%"는 머지 기준이고, 머지 후 롤백·핫픽스는 별도 트래킹입니다. 모방할 때는 비슷한 정의를 우리도 내부적으로 못 박는 게 안전합니다.

FAQ

Q. Herogen은 어디서 받을 수 있나요?

외부 공개 제품이 아닌 Delivery Hero 사내 도구입니다. 다만 코어는 Claude Opus 4.5와 multi-LLM 검수 — 누구나 같은 구조를 자체적으로 만들 수 있습니다.

Q. council of agents가 단순한 LLM 앙상블과 무엇이 다른가요?

핵심은 '코드 작성'과 '코드 리뷰'의 모델을 분리한다는 점입니다. 같은 모델의 자가 검수보다 다른 프로바이더 모델의 외부 시각이 실수 패턴을 더 잘 잡는다는 게 council 구조의 베팅입니다.

Q. 한국 기업이 이걸 따라가려면 무엇부터 봐야 하나요?

Jira 티켓 표준화입니다. Herogen이 자연어 티켓에서 코드까지 가는 데 가장 큰 마찰은 모호한 요구사항이었다고 발표에 적혀 있습니다. 자율 라인의 첫 병목은 모델이 아니라 입력 포맷인 거죠.

마무리

"PR을 사람이 쓰지 않고 에이전트들이 협의해 머지한다"는 문장이 분기 보고서에 등장한 건 처음입니다. 다음 분기 모든 CTO 책상에 같은 질문이 올라갈 겁니다 — 우리는 9% 어디에 있나요.

4,000명짜리 회사가 130명을 자동화했다 — Delivery Hero의 Herogen이 PR을 갈아엎는 방식

핵심 요약 (TL;DR)

Herogen은 정확히 어떤 에이전트인가요

숫자가 말해주는 충격은 어디서 오나요

바이브코더에게 이 사례가 의미하는 것

FAQ

마무리

댓글 0