트렌드 · 2분 · 04.12

구독료 없이 AI 코딩하는 시대 — Gemma 4가 로컬 AI의 판을 바꾸고 있습니다

loopy vibecoder

#draft #Gemma4 #로컬AI #오픈소스 #온디바이스 #Google #Apache2.0

핵심 요약 (TL;DR)

Google의 오픈소스 모델 Gemma 4가 출시 첫 주 200만 다운로드를 돌파했습니다. 2B 파라미터 경량 모델(E2B)이 아이폰에서 약 40tok/s 속도를 기록하며, 월 구독료 없이 디바이스에서 AI를 돌리는 '로컬 AI 시대'가 현실로 다가왔습니다.

매달 2만원씩 내는 AI 구독, 꼭 필요한 걸까요?

Claude Pro 월 $20, ChatGPT Plus 월 $20. 바이브코더에게 AI 구독료는 이제 고정비처럼 자리 잡았습니다. 하지만 모든 작업에 프론티어 모델이 필요한 건 아닙니다. 간단한 코드 생성, 텍스트 처리, 함수 호출 같은 작업을 내 디바이스에서 무료로 돌릴 수 있다면 어떨까요?

Gemma 4, 숫자로 말하다

Google이 공개한 Gemma 4는 첫 주 만에 200만 다운로드를 기록했습니다. Gemma 3가 1년간 670만이었던 것과 비교하면 채택 속도가 폭발적입니다.

주목할 지점은 온디바이스 성능입니다. 2B 파라미터 경량 모델(E2B)이 아이폰 17 Pro에서 MLX 프레임워크로 약 40tok/s를 찍었습니다. 플래그십 모델(26B/31B)은 256K 컨텍스트 윈도우에 네이티브 비전+오디오, 140개 이상 언어, 빌트인 함수 호출까지 지원합니다. Apache 2.0 라이선스라 상업적 사용에도 제한이 없습니다.

Latent Space는 "오픈 모델의 성공은 모델 웨이트가 아니라 에코시스템 조율에 달렸다"고 분석했고, HuggingFace에서도 즉각 지원을 시작했습니다.

바이브코더가 로컬 AI를 고려해야 하는 순간

솔직히 말하면, 복잡한 코딩 작업에서 Gemma 4가 Claude Opus나 GPT-5급을 대체하기는 아직 어렵습니다. 커뮤니티에서도 "코딩 품질은 Opus/GPT에 한참 못 미친다"는 반론이 있습니다.

하지만 모든 작업이 프론티어급 추론을 요구하지는 않습니다. 이런 시나리오에서는 로컬 AI가 합리적 선택이 됩니다:

에이전트를 24시간 돌려야 하는데 API 비용이 부담될 때
민감한 데이터를 클라우드로 보내고 싶지 않을 때
간단한 텍스트 처리나 분류 작업을 반복할 때
오프라인 환경에서 AI가 필요할 때

클라우드 AI로 고난도 작업, 로컬 AI로 반복 작업 — 이런 하이브리드 워크플로우를 설계해볼 타이밍입니다.

앞으로의 전망

Gemma 4의 의미는 단일 모델의 성능이 아니라, '로컬에서 돌릴 만한 AI'의 기준이 달라졌다는 점에 있습니다. Red Hat이 양자화 버전을 공개하고, Ollama와 LM Studio가 즉시 지원을 시작한 건 에코시스템이 이미 준비돼 있다는 뜻입니다.

"중앙 집중형 AI 서비스에 월 $20 내고 쓰기"에서 "내 디바이스에서 내 AI를 돌리기"로의 전환 — 아직 완성은 아니지만, 분명히 시작됐습니다.

FAQ

Gemma 4로 코딩 작업을 할 수 있나요?

간단한 코드 생성이나 수정은 가능하지만, 복잡한 아키텍처 설계나 대규모 리팩토링에서는 Claude/GPT급 모델이 여전히 우위입니다. 작업 난이도에 따라 선택하는 게 현실적입니다.

아이폰에서 40tok/s는 어떤 모델 기준인가요?

2B 파라미터 경량 모델(E2B) 기준입니다. 26B/31B 플래그십 모델의 온디바이스 성능은 이보다 상당히 낮으며, 주로 클라우드나 데스크톱 GPU에서 실행합니다.

무료로 상업적 사용이 가능한가요?

Apache 2.0 라이선스로 배포되어 상업적 사용에 제한이 없습니다. 이전 Gemma 버전은 커스텀 라이선스였으나 Gemma 4부터 변경됐습니다.