트렌드 · 3분 · 06.28

DeepSeek가 V4보다 V4를 빠르게 만드는 framework를 MIT로 풀었다 — Qwen3·Gemma4에도 그대로 붙는 DSpark

loopy vibecoder

#draft #DeepSeek #OSS #speculative-decoding #추론최적화

Speculative decoding은 몇 년 전부터 '이론은 좋은데 production에 못 붙인다'는 평이 따라다녔습니다. 그 갭을 한 발에 닫아버린 게 지난 주말 DeepSeek가 풀어버린 DSpark입니다. V4-Flash에서 처리량 60~85%, V4-Pro에서 57~78% 증가, 출력은 완전히 동일.

핵심 요약 (TL;DR)

DeepSeek가 2026년 6월 27일 DSpark를 공식 공개했습니다. 풀네임은 'Confidence-Scheduled Speculative Decoding + Semi-AR Generation'. 단순 알고리즘이 아니라 드래프터 학습·평가 전체 워크플로를 github.com/deepseek-ai/DeepSpec에 MIT로 풀었습니다. Qwen3·Gemma4에도 호환된다는 발표(MarkTechPost 보도 기준).

무엇이 바뀌었나

기존 speculative decoding은 단일 토큰을 직렬로 검증하는 MTP-1 방식이 표준이었습니다. DSpark는 여러 후보 토큰을 병렬로 생성한 다음 confidence-based scheduler로 GPU가 한가할 때 더 많이, 바쁠 때 더 적게 검증하는 semi-parallel 방식이에요. 동적 부하 조절이 핵심인 거죠.

숫자로 보면 — production 환경에서 V4-Flash 60~85%, V4-Pro 57~78%의 per-user 생성 속도 증가. offline accepted length는 Eagle3 대비 26~31%, DFlash 대비 16~18% 게인이 5개 도메인 평균. lossless — 출력이 원본과 정확히 동일해서 accuracy 트레이드오프가 없습니다.

가장 흥미로운 한 줄은 호환성. 발표 검증 모델 리스트에 Qwen3 4B/8B/14B + Gemma4-12B가 들어가 있어요. DeepSeek 모델 외에도 드래프터를 직접 학습시키면 같은 게인이 들어옵니다. 다만 가중치는 V4-Flash·V4-Pro만 HF에 공개됐고, 다른 모델은 학습 코드로 직접 돌려야 합니다.

바이브코더가 알아야 할 점

여기서 한국 인디 빌더 입장의 함의가 두 가지로 갈립니다.

첫째, 로컬·자체 호스팅에서 Qwen3·Gemma4를 쓰던 사람에게는 무료로 1.6~1.8배 속도 게인이 들어오는 셈입니다. M3 Max에서 Qwen3-8B로 코딩 에이전트 돌리는 분이라면 한 번 학습 돌리고 latency를 직접 비교해볼 만해요. 기존 추론 스택의 격차가 좁혀진다는 의미입니다.

둘째, OSS 프론티어랩의 '모델 출시 → 인프라까지 같이 푼다' 패턴이 확립됐습니다. V4 자체가 4월에 나왔고, 약 두 달 만에 V4를 더 빠르게 만드는 framework가 같은 팀에서 MIT로 나왔어요. '좋은 모델 풀고 끝'이 아니라 '좋은 모델을 빠르게 만드는 도구까지 풀어야 진짜 표준이 된다'는 신호죠. Hacker News 톱 코멘트가 정확히 그 정서를 잡아냈습니다 — '업계 전체가 speculative decoding을 baseline으로 잡는 데 미적거리는 사이에 OSS 한 발로 baseline이 옮겨갔다.'

앞으로의 전망

이번 릴리즈가 의미하는 건 단순한 속도 향상 이상입니다. 로컬 모델의 latency가 더 이상 '느려서 못 쓴다'의 영역이 아니게 된다는 거예요. Claude Code·Cursor 옆에 로컬 모델을 라우터로 끼우는 시나리오에서, 비용·프라이버시·latency 세 축이 동시에 합쳐지는 시점이 가까워지고 있습니다.

다만 발표 수치(26~31%·16~18%)가 다른 모델에서 그대로 재현될지는 본인 환경에서 검증이 필요합니다. 발표는 항상 best case에 가깝거든요.

FAQ

DSpark를 내 로컬 Qwen3에 어떻게 붙이나요?
HF에 공개된 건 V4-Flash·V4-Pro 가중치 + DSpark 모듈 attached 체크포인트입니다. Qwen3에 붙이려면 DeepSpec 리포의 학습 코드로 직접 드래프터를 학습시켜야 해요. 일반 GPU 한 대로 돌릴 수 있는 규모입니다.

'lossless'가 진짜 모든 케이스에서 lossless인가요?
DeepSeek 발표 기준입니다. long-context·tool-use 같은 엣지 케이스에서 출력 일치율을 본인 환경에서 한 번 확인해보시는 걸 권합니다.

MIT 라이선스가 가중치까지 포함인가요?
학습·평가 코드는 MIT로 GitHub에 공개. 가중치는 HF에서 별도 라이선스로 제공되니 DeepSpec 리포의 LICENSE 파일과 HF 모델 카드를 같이 확인하셔야 합니다.

오늘 저녁에 DeepSpec 리포를 한 번 열어보세요. 학습 코드의 README만 훑어도 1.6배 속도가 '내 환경에서 들어올 만한가'의 감이 옵니다. OSS 인프라가 모델 자체보다 빠르게 진화하는 시대 — 따라가는 비용이 어느 때보다 낮아진 게 이번 릴리즈의 진짜 메시지인 거죠.

DeepSeek가 V4보다 V4를 빠르게 만드는 framework를 MIT로 풀었다 — Qwen3·Gemma4에도 그대로 붙는 DSpark

핵심 요약 (TL;DR)

무엇이 바뀌었나

바이브코더가 알아야 할 점

앞으로의 전망

FAQ

댓글 0