실전 가이드 · 3분 · 05.09

한국어 동시통역 SaaS, 이번 주말에 만들 수 있다 — OpenAI Realtime 음성 3종 GA 가이드

loopy vibecoder

#draft #OpenAI #Realtime #음성AI #GPT-Realtime-2 #Translate #Whisper #보이스SaaS

핵심 요약 (TL;DR)

OpenAI가 5월 7일 Realtime API에 음성 모델 3종(GPT-Realtime-2 / Translate / Whisper)을 일괄 GA로 풀었습니다. GPT-Realtime-2는 GPT-5급 추론을 가진 첫 음성 모델로 128K 컨텍스트와 reasoning effort 조정을 지원합니다. Translate는 70+개 입력 언어를 13개 출력 언어로 라이브 동시통역하고 분당 $0.034, Whisper는 라이브 자막을 분당 $0.017에 스트리밍합니다. 한국 인디 빌더가 한 주 안에 만들 수 있는 보이스 SaaS 카테고리가 한 번에 네 개 열렸습니다.

가격이 60배 떨어졌다는 게 무엇을 의미하는지

라이브 STT 단가가 분당 $0.017이라는 숫자를 풀어보면 이렇습니다. 1시간짜리 회의를 자동 전사할 때 비용이 약 $1, 즉 1,400원입니다. Deepgram·AssemblyAI 같은 기존 강자가 분당 $0.6~$1.0 수준으로 책정해온 것과 비교하면 한 자릿수에서 두 자릿수 차이입니다. TechCrunch 보도 댓글창에서 "음성 SaaS 가격표가 통째로 무너진다"는 반응이 가장 많이 박힌 이유입니다.

세 모델의 위치를 정리하면 다음과 같습니다.

모델	용도	가격	특이점
GPT-Realtime-2	음성 직빌드 에이전트	$32/M audio in, $64/M audio out (cached $0.40/M)	GPT-5급 추론, 128K 컨텍스트
GPT-Realtime-Translate	라이브 동시통역	분당 $0.034	70+개 입력 → 13개 출력, 화자 페이스 유지
GPT-Realtime-Whisper	라이브 자막 STT	분당 $0.017	화자 발화 중 스트리밍 자막

한 주 안에 만들 수 있는 4가지 보이스 SaaS

이 단가 변화가 만든 즉시 가능한 카테고리는 네 가지로 압축됩니다.

1) 한↔영 미팅 봇. Zoom·Google Meet에 봇으로 참여시켜 발화자별 라이브 자막 + 양방향 동시통역을 깔아주는 도구. Translate를 양방향으로 돌려 분당 $0.068, 1시간 미팅에 약 $4면 풀스택 운영이 가능합니다.

2) 글로벌 컨퍼런스 자막 SaaS. 발표자가 한국어로 말하면 청중 단말에는 영어·일본어·중국어 자막이 동시 출력. WebRTC로 발표 음성을 받아 Translate로 다국어 분기하면 됩니다.

3) 한국어 강의 자동 더빙. 1시간짜리 한국어 강의를 영어로 자동 더빙하면 분당 $0.034 × 60 = $2.04, 약 2,800원입니다. 유튜브 채널 글로벌 확장 비용이 처음으로 커피 한 잔보다 저렴해졌습니다.

4) AI 콜센터/상담사. GPT-Realtime-2는 음성→텍스트→음성 합성을 거치지 않고 음성으로 바로 추론·답변·툴 호출이 가능합니다. 1차 콜 응대 자동화 비용이 인건비 대비 두 자릿수 미만 비율로 떨어집니다.

시작 전 반드시 점검할 한 가지 — 한국어 출력 지원 여부

여기서 한국 빌더가 반드시 멈춰서 확인해야 할 항목이 하나 있습니다. Translate의 출력 언어 13개에 한국어가 포함되는지가 OpenAI 공식 발표와 2차 매체 모두에서 미공개 상태입니다. 입력은 70+개에서 한국어가 포함되지만, 출력 13개에 한국어가 빠졌다면 "한국어 → 영어/일본어/중국어"는 가능해도 "영어 → 한국어"는 불가능한 비대칭 구조가 됩니다.

이 한 가지가 위 4가지 카테고리의 시장 사이즈를 절반 이상 흔듭니다. MVP 코드를 짜기 전에 docs.openai.com의 Realtime API 문서에서 Translate output languages 항목을 본인 눈으로 확인하시는 걸 권장합니다. 답이 "한국어 출력 미지원"이라면, 한국 시장 진입 SaaS는 한국어 → 글로벌 방향 위주로 설계해야 하고, 글로벌 → 한국어는 GPT-Realtime-2에 별도 한국어 합성을 결합하는 우회 경로가 필요합니다.

자주 묻는 질문 (FAQ)

Q. Deepgram·AssemblyAI에서 OpenAI Whisper-Realtime으로 갈아탈 가치가 있나요?
가격만 보면 60배 차이입니다. 다만 latency·정확도·산업별 도메인 적응(의료·법률 용어)은 기존 강자가 더 강할 수 있습니다. A/B 테스트 후 결정하시는 게 안전합니다.

Q. 보이스 가드레일이 정상 대화도 끊는다고 하던데요?
OpenAI 공식 카피에 "automated conversation halting when harmful content guidelines are violated"가 명시돼 있습니다. 콜센터·의료 상담 등에서 false positive로 정상 대화가 끊길 위험이 있어, 운영 시 별도 모니터링이 필요합니다.

Q. Anthropic Claude는 음성 모델이 없나요?
5월 6일 Code with Claude 키노트에도 음성 언급이 0이었습니다. 음성 트랙은 현재 OpenAI vs Google(Gemini Live) 양강 구도이고, Anthropic은 텍스트·코드 트랙에 집중하고 있습니다.

음성 인터페이스가 1년 만에 SaaS 단가 60배 인하 단계로 진입했습니다. 5월 9일 주말부터 5월 13일 사이에 한국 인디 빌더가 무엇을 띄울지가 향후 1개월 보이스 SaaS 지형을 결정할 타이밍입니다. 한국어 출력 지원만 확인되면, 이번 주말이 그 출발점이 될 수 있습니다.