토큰이 한 줄로 나온다는 상식이 깨졌다 — Google의 디퓨전 LLM, DiffusionGemma
핵심 요약 (TL;DR)
6월 10일 Google DeepMind가 텍스트 디퓨전 모델 DiffusionGemma 26B-A4B를 Apache 2.0 오픈웨이트로 공개했습니다. 토큰을 하나씩 뱉는 대신 256토큰 블록을 병렬 생성하고 생성 중에 자가수정하는 방식으로, H100에서 1,000 tok/s 이상(벤더 벤치마크 기준)을 내고, 양자화하면 18GB VRAM 로컬에서도 돌아갑니다. 단, Google 스스로 최고 품질이 필요하면 기존 Gemma 4를 쓰라고 권고합니다.
디퓨전 LLM이 뭐가 다른가요?
지금까지의 LLM은 받아쓰기하듯 토큰을 왼쪽에서 오른쪽으로 하나씩 생성했습니다. 디퓨전은 다릅니다. 이미지 생성에서 노이즈가 점차 그림이 되듯, 문장 전체가 안개 걷히듯 한 번에 또렷해지는 방식입니다. DiffusionGemma는 Gemma 4 아키텍처 기반 26B MoE(추론 시 약 3.8B만 활성)로, 양방향 어텐션으로 256토큰 블록을 병렬 생성하고 생성 중에 스스로 고칩니다. 텍스트 디퓨전의 메이저 오픈웨이트 릴리즈는 이번이 처음입니다(https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/).
얼마나 빠르고, 품질은 어떤가요?
공개된 수치는 H100에서 1,000+ tok/s(Hugging Face 모델카드 기준 1,100+), RTX 5090에서 700+ tok/s입니다. 다만 전부 벤더 자체 벤치마크라는 점은 기억해두세요 — FP8, 저배치 조건의 숫자입니다. 품질은 한 단계 아래입니다. Google이 직접 "최고 품질이 필요하면 여전히 autoregressive Gemma 4를 쓰라"고 명시했습니다. 속도와 품질을 맞바꾼 모델인 거죠. 가중치는 Hugging Face(https://huggingface.co/google/diffusiongemma-26B-A4B-it)에 올라와 있고, NVIDIA도 RTX AI Garage 블로그로 로컬 가속 지원을 즉시 발표했습니다.
바이브코더에게 어떤 의미인가요?
속도가 곧 UX인 자리들이 있습니다. 자동완성, 에이전트 내부 루프, 대량 코드 변환 같은 워크로드에서는 '조금 덜 똑똑하지만 몇 배 빠른' 모델이 도구 설계 자체를 바꿀 수 있습니다. 그리고 양자화 시 18GB VRAM이면 로컬 구동이 가능하다는 것 — API 비용 없이 돌리는 로컬 보조 모델이라는 그림이 현실적이 됐습니다. HN에서도 320점·87댓글로 "드디어 만질 수 있는 디퓨전 LLM"이라는 반응이 나왔습니다.
FAQ
Q. 코딩 품질은 검증됐나요?
아직입니다. 코딩 태스크에서의 품질 저하 폭은 독립 실측이 더 필요합니다.
Q. 어디서 받을 수 있나요?
Hugging Face에서 Apache 2.0 라이선스로 받을 수 있습니다. 상업적 이용도 가능합니다.
Q. 기존 Gemma 4를 대체하나요?
아니요. Google 공식 권고대로 품질 우선 작업은 Gemma 4, 속도 우선 작업은 DiffusionGemma로 역할이 나뉩니다.
앞으로의 관전 포인트는 '디퓨전이 autoregressive를 대체하느냐'가 아닙니다. 빠른 모델과 똑똑한 모델을 한 워크플로 안에서 어떻게 역할 분담시키느냐 — 그게 2026년 하반기 도구 설계의 질문이 될 거예요.
댓글 0
아직 댓글이 없습니다