실전 가이드 · 3분 · 05.07

Rakuten이 보여준 '7시간 자율 코딩 세션' — 팀 워크플로우에 AI를 녹이는 4가지 패턴

loopy vibecoder

#draft #바이브코딩 #Rakuten #Claude-Code #multi-agent #워크플로우 #자율코딩 #Code-with-Claude-2026

핵심 요약 (TL;DR)

Rakuten의 ML 엔지니어가 7시간 동안 코드 한 줄도 안 친 채 vLLM 추론 엔진을 자율 리팩토링했습니다. 회사 평균 기능 출시 시간은 24영업일에서 5일로 79% 단축됐고(Rakuten 자체 측정), 격주 배포로 전환했습니다. 'AI가 빨리 짜기'가 아니라 '팀 워크플로우에 AI를 녹이는 4가지 패턴'이 진짜 본론입니다.

7시간 동안 코드를 한 줄도 안 친다는 것

5월 6일 키노트 무대에서 Rakuten ML Engineer Kenta Naruse가 공개한 일화는 이렇습니다. vLLM 추론 엔진 리팩토링을 Claude Code에 자율 위임한 후, 7시간 동안 가끔 가이드만 던지고 코드는 한 줄도 직접 안 썼다는 것. 'I didn't write any code during those seven hours'라는 발언이 그대로 슬라이드에 박혔습니다.

이게 단발 일화일 수 있죠. Rakuten도 케이스 스터디에서 이 7시간이 평균인지 일회성인지 명시하지 않았습니다. 다만 회사 단위 숫자는 따로 있습니다. 평균 기능 출시 시간 24영업일에서 5일로 79% 단축(Rakuten 자체 측정), 복잡 코드 수정 정확도 99.9%, 크리티컬 에러 97% 감소, 배포 주기 분기에서 격주로. AI for Business 부서 General Manager인 Yusuke Kaji는 'Speed and ROI are our key metrics'라고 정리했습니다.

4가지 패턴: 팀에 AI를 녹이는 법

Rakuten이 공개한 운영 패턴 4가지는 솔로 개발자에게도 그대로 적용됩니다.

1. Specialist agent를 도메인별로 두기. Rakuten은 Product·Sales·Marketing·Finance·Engineering 각 영역에 specialist agent를 배포했습니다. 코드용 에이전트, 마케팅용 에이전트, 재무용 에이전트가 다 다릅니다. 각 도메인의 컨텍스트가 완전히 다르기 때문입니다.

2. 테스트 먼저, 구현 나중. Senior ML Engineer Diego Mateos가 표준화한 패턴입니다. Claude에게 먼저 테스트 케이스를 생성시키고, 그다음에 그 테스트를 통과하는 기능 구현을 위임하는 방식이죠. TDD의 새로운 형태인 거예요. 결과 검증이 자동화됩니다.

3. 5개 태스크 병렬 — 4개는 Claude, 1개에 집중. Rakuten 엔지니어는 동시에 5개 작업을 굴립니다. 4개는 Claude가 자율로 돌고, 본인은 1개에 집중합니다. 이게 24일에서 5일을 만든 패턴입니다. 솔로 입장에서도 '기다리는 시간'을 다른 작업으로 채우는 모델로 변형 가능합니다.

4. 자율 세션 길이를 키우는 게 핵심 KPI. 7시간이라는 숫자는 우연이 아니라 측정 대상입니다. '한 번 위임했을 때 얼마나 오래 알아서 가는가'가 도구의 ROI를 결정한다는 뜻이죠.

99.9% 정확도라는 숫자의 의미

이 숫자는 조심해서 읽어야 합니다. Rakuten이 공개한 'complex modifications에서 99.9% 정확도'의 측정 정의(테스트 통과율인지 코드 리뷰 통과율인지)는 명시되지 않았습니다. 그래서 'Rakuten 자체 측정'이라고 봐야 합니다. 다만 격주 배포·인시던트 97% 감소가 같이 나왔다는 점에서 운영상 의미 있는 수준은 분명합니다. 자세한 내용은 claude.com/customers/rakuten에서 확인하실 수 있습니다.

솔로 입장에서 가져갈 것

대기업 사례라고 흘려보내면 손해입니다. 패턴 4가지 중 '테스트 먼저'와 '5개 병렬에서 1개에 집중'은 1인 개발자에게 그대로 옮겨집니다. 특히 후자는 Claude Code 한도가 2배로 풀린 이번 달부터 진짜 쓸모가 생기는 패턴이에요.

FAQ

Q. 7시간 자율 세션이 정말 가능한가요?
Naruse의 단일 일화로 공개됐고, Rakuten은 재현 가능성이나 평균 빈도를 명시하지 않았습니다. 다만 vLLM처럼 명확한 입출력이 있는 영역에서는 충분히 가능한 시나리오입니다.

Q. 24일에서 5일은 평균인가요 중앙값인가요?
Rakuten은 'average time to market'이라고만 표기했고, 어떤 기능 그룹 기준인지·평균인지 중앙값인지는 공개하지 않았습니다. Rakuten 자체 측정으로 받아들이세요.

Q. specialist agent를 솔로가 어떻게 만드나요?
Claude Code의 sub-agent 기능 또는 Multi-agent orchestration(이번 주 public beta) 활용이 가능합니다. 도메인별로 시스템 프롬프트만 다르게 둬도 충분히 specialist 효과가 납니다.

24일을 5일로 줄이는 일이 우리 팀에서도 가능한지는, 솔직히 도구가 아니라 워크플로우 설계 문제입니다. Rakuten의 4가지 패턴 중 한 가지만이라도 이번 주에 시도해보시는 게 어떨까요.