API 비용 0원에 속도 2배 — Ollama 0.19가 맥 바이브코더의 로컬 AI를 바꿔놓는다
핵심 요약 (TL;DR)
Ollama 0.19가 Apple MLX 프레임워크를 통합해 맥에서 로컬 AI 모델 실행 속도를 약 2배로 끌어올렸습니다. 프리필(프롬프트 처리) 1.6배, 디코드(응답 생성) 1.9배 향상. API 비용 없이 맥북 하나로 코딩 에이전트를 돌리는 환경이 한 걸음 더 가까워졌습니다.
무엇이 바뀌었나
Ollama 0.19는 Apple의 머신러닝 프레임워크 MLX를 직접 통합했습니다. Apple Silicon의 통합 메모리 아키텍처를 GPU 레벨에서 활용하게 된 거죠.
벤치마크 숫자로 보면 변화가 확실합니다:
| 지표 | 이전 | MLX 적용 후 | 향상 |
|---|---|---|---|
| 프리필 | 1,154 tokens/sec | 1,810 tokens/sec | 1.6배 |
| 디코드 | 58 tokens/sec | 112 tokens/sec | 1.9배 |
M5, M5 Pro, M5 Max 칩에서는 GPU Neural Accelerator까지 활용해 추가 가속을 제공합니다. 새로운 NVFP4 양자화 포맷으로 품질 저하 없이 메모리 효율도 개선됐습니다.
맥 바이브코더에게 왜 중요한가
Ollama는 단순한 로컬 AI 실행 도구가 아닙니다. Claude Code, OpenCode 같은 코딩 에이전트의 로컬 백엔드로도 쓰이기 때문에, 이번 업데이트는 로컬 AI 코딩 에이전트 전체 생태계의 성능 향상을 의미합니다.
API 호출 비용을 신경 쓰지 않으면서 Qwen 3.5 같은 오픈소스 모델을 빠르게 돌릴 수 있다는 건, 사이드 프로젝트의 실험 비용이 0에 가까워진다는 뜻이거든요.
세팅 방법
기존 Ollama 사용자라면 업데이트만 하면 됩니다:
# Ollama 업데이트 (Homebrew)
brew upgrade ollama
# MLX 백엔드 확인 (Apple Silicon 자동 감지)
ollama --version
# 모델 실행 — Qwen 3.5 예시
ollama run qwen3.5:35b
32GB 이상의 메모리가 필요합니다. 8GB나 16GB 맥에서는 큰 모델 실행이 제한적이니 참고하세요. MLX 통합은 아직 preview 상태이므로, 프로덕션 환경에서는 안정성을 확인한 뒤 적용하는 걸 권장합니다.
앞으로의 전망
Apple이 MLX를 발전시키고, Ollama가 이를 빠르게 통합하는 흐름은 맥을 AI 개발의 주류 플랫폼으로 끌어올리고 있습니다. 클라우드 GPU 없이 맥북 한 대로 AI 에이전트를 만들고 테스트하는 워크플로우가 점점 현실이 되고 있거든요. 다음 사이드 프로젝트에서 로컬 AI를 한번 시도해보시는 건 어떨까요?
FAQ
Q: M4 칩(비-M5)에서도 효과가 있나요?
MLX는 M1 이후 모든 Apple Silicon에서 작동합니다. 다만 M5 시리즈의 Neural Accelerator 추가 가속은 M4 이하에서 적용되지 않으므로, 향상 폭이 다를 수 있습니다.
Q: 어떤 모델을 로컬에서 돌리는 게 좋나요?
32GB 맥 기준으로 Qwen 3.5-35B 같은 중간 크기 모델이 적합합니다. 코딩 에이전트 백엔드로 쓴다면 코드 특화 모델을 선택하는 게 효율적입니다.
댓글 0
아직 댓글이 없습니다