인사이트 · 4분 · 04.27

OpenAI가 의사들에게 GPT를 공짜로 푼 진짜 이유 — 1인 SaaS가 다음에 노려야 할 자리

loopy vibecoder

#draft #OpenAI #ChatGPT #의료AI #버티컬SaaS #평가셋 #1인SaaS #모트

핵심 요약 (TL;DR)

4월 23일 OpenAI가 'ChatGPT for Clinicians'를 미국 verified 의사·간호사·약사·PA에게 무료로 출시했습니다. 자체 발표 기준 6,924건 임상 대화에서 GPT-5.4가 59.0점, 인터넷 무제한의 인간 의사가 43.7점. 가장 보수적인 전문직 시장에 "무료"로 들이닥친 이 움직임은 버티컬 AI SaaS의 새 모트를 알려줍니다 — 도메인 평가셋과 verified 사용자 게이팅.

59 vs 43.7 — 이 숫자가 의미하는 것

OpenAI 공식 발표에 따르면, 새로 만든 HealthBench Professional이라는 525개 실제 임상 챗 태스크 벤치마크에서 GPT-5.4(ChatGPT for Clinicians 워크스페이스 버전)가 평균 59.0점을 기록했습니다. 같은 태스크에 인터넷 무제한, 시간 무제한 조건의 인간 의사 평균은 43.7점. 6,924건의 실제 임상 대화 평가에서 99.6%가 안전·정확 판정을 받았습니다(525 태스크와 99.6% 안전 비율은 모두 OpenAI 자체 발표 기준).

진료 컨설트, 문서화, 의학 연구 — 의사 업무의 핵심 3개 카테고리에서 GPT가 인간 의사를 추월했다는 신호입니다. 그리고 그걸 OpenAI는 무료로 풀었습니다.

왜 무료인가 — 게이팅이 곧 모트다

공짜의 이유를 "의료 시장 진입"으로 단순화하면 핵심을 놓칩니다. 진짜 메시지 두 개를 따로 봐야 해요.

첫째, 데이터 모트. verified 의사가 ChatGPT에 던지는 질문, 받은 답변에 대한 피드백, 실제 채택 여부 — 이게 곧 다음 버전의 학습·평가 데이터입니다. 일반 사용자 데이터로는 절대 못 만드는 "전문가가 검증한 임상 의사결정 페어"가 무료라는 미끼로 흘러들어 옵니다.

둘째, 평가 모트. HealthBench Professional 같은 도메인 평가셋이 공개되면, 다른 회사가 같은 평가에서 더 높은 점수를 내야 시장에 도전할 수 있습니다. OpenAI는 룰을 만들고, 동시에 룰을 통과한 제품을 무료로 풉니다. 후발 주자는 두 번 이깁니다 — 더 좋은 모델을 만들고, 평가 점수도 능가하고.

1인 SaaS가 배워야 할 새 플레이북

바이브코더 입장에서 의료 분야 자체는 진입 장벽이 너무 높습니다. 그런데 OpenAI가 보여준 "버티컬 AI SaaS의 모트 만드는 법"은 그대로 다른 업종에 복제 가능합니다.

1단계: 도메인 평가셋부터 만든다. 법률 SaaS라면 "실제 변호사가 풀어야 할 100개 케이스 + 정답". 회계 SaaS라면 "실제 K-IFRS 회계 처리 200문항". 평가셋이 있으면 (a) 모델 개선 사이클이 객관적이 되고, (b) 마케팅 무기가 되고, (c) 후발 주자에게 같은 룰을 강요할 수 있습니다.

2단계: verified 사용자에게 게이팅한다. "한국 변호사 자격증 인증", "세무사 자격증 인증" 같은 게이트를 둬서 일반 사용자와 구분합니다. 이 게이트가 (a) 데이터 품질을 보장하고, (b) 가격 정책을 차별화할 명분이 되고, (c) 법적 책임 분담의 토대가 됩니다.

3단계: 게이트 통과한 사용자에겐 공격적으로 무료/할인. OpenAI가 의사에게 무료를 푼 이유는 단가가 아니라 데이터입니다. 1인 SaaS도 같은 논리. 처음 100명 verified 사용자에게 1년 무료를 풀어 데이터·평가셋·증언을 모으는 게, 매월 $50씩 받으려고 1,000명을 잃는 것보다 훨씬 가성비가 좋습니다.

4단계: 평가셋·게이팅 둘 다 "공개"한다. 폐쇄적으로 가지고 있으면 한 번 쓰는 무기지만, 공개하면 표준이 됩니다. OpenAI가 HealthBench Professional PDF를 공개한 이유가 여기 있습니다.

코드 한 조각 — 미니멀 평가셋 시작하는 법

# evals/legal_basics.jsonl
{"input": "근로계약서에 경업금지 조항이 있을 때 퇴직 후 동종업계 이직 가능 여부는?",
 "reference_answer": "경업금지의 합리성 4요소...",
 "verifier": "contains(['합리성', '대가', '기간', '지역'])"}
# 100개 정도 모이면 평가셋의 출발선이 됩니다

핵심은 거창한 RAG 인프라가 아니라 "이 산업의 진짜 전문가가 합격으로 인정할 답"이 무엇인지를 한 줄씩 적어두는 것입니다. 50개부터 시작해도 의미가 있습니다.

버티컬 SaaS는 망했는가, 아니면 진짜 시작인가

r/SaaS에서 갈렸던 논쟁이 정확히 이 지점이었습니다. "OpenAI가 의료에 무료로 들어왔으니 버티컬 SaaS는 다 망했다" vs "오히려 도메인 데이터·평가셋이 진짜 모트라는 게 증명됐다".

양쪽 다 절반씩 맞습니다. 일반 GPT 래퍼 수준의 "법률 챗봇", "회계 챗봇"은 무용지물이 됐습니다. 그런데 "verified 한국 변호사 100명의 평가셋과 사용 데이터로 학습한 한국법 SaaS"는 OpenAI도 못 만듭니다. OpenAI는 미국 의사로 시작했지, 한국 변호사로 시작하지 않았으니까요.

버티컬은 망한 게 아니라, 진입 장벽이 "GPT 래퍼"에서 "도메인 평가셋 + verified 사용자 네트워크"로 이동한 것입니다. 후자를 가진 1인 SaaS는 오히려 지금이 가장 큰 기회입니다.

자주 묻는 질문

Q. 한국 의사도 ChatGPT for Clinicians를 쓸 수 있나요?
현재는 미국 verified 사용자 한정 출시입니다. 한국·EU 출시 일정은 OpenAI가 공식 발표하지 않았습니다.

Q. 평가셋 없이 그냥 GPT API로 만들면 안 되나요?
초기 MVP는 가능합니다. 하지만 사용자 100명을 넘는 순간, "왜 너희 제품을 써야 하나" 질문이 옵니다. 그때 "우리는 이 평가셋에서 일반 GPT 대비 X% 더 정확합니다"라고 답할 수 있느냐가 모트입니다.

Q. verified 사용자 게이팅은 비용이 큰데 1인이 가능한가요?
Kakao·Naver 본인인증 + 자격증 사진 업로드 수동 검수 정도면 충분합니다. 처음 100명까지는 직접 검수해도 한 명당 5분이면 끝납니다. 자동화는 트랙션이 나온 후에.