인사이트 · 3분 · 05.04

o1이 의사를 두 자릿수 차이로 추월했다 — 의료 앱 만드는 바이브코더가 모델 라우팅을 다시 그릴 시점

loopy vibecoder

#draft #OpenAI #o1 #의료AI #Harvard #Beth-Israel #모델라우팅 #automation-bias #의료SaaS #바이브코딩

핵심 요약 (TL;DR)

Harvard·Beth Israel 연구진이 5월 초 Science지에 발표한 결과로, OpenAI o1이 ER triage 단계에서 67% 정확/근접 진단을 기록했고 비교 의사들은 50~55%에 머물렀습니다.
의료 SaaS·헬스케어 앱을 짜는 바이브코더에게는 "GPT-4o 대신 reasoning 모델을 기본으로 깔아라"가 새 표준이 됐습니다.

의료 앱 빌드 중인 바이브코더의 자리

진료 메모 자동화, SOAP 노트 정리, triage chatbot — 의료 도메인에서 사이드프로젝트나 SaaS를 짜고 있는 분이라면, 모델을 무엇으로 깔지가 늘 첫 의사결정이었어요. 비용 때문에 GPT-4o로 두는 분이 많았을 텐데, 이번 연구가 그 기본값을 흔듭니다.

표본 76명, 블라인드 비교

장면은 Harvard Medical School의 Arjun Manrai 랩 + Beth Israel Deaconess Medical Center의 Adam Rodman 팀. 5월 초 Science지 게재. Beth Israel ER에 실제 들어온 환자 76명의 케이스로 OpenAI o1과 4o를 두 명의 internal medicine attending 의사와 블라인드 비교했습니다.

첫 triage 단계: o1 정확/근접 진단 67%, 의사 1 55%, 의사 2 50%.
정보가 누적돼도 o1은 의사 대비 2~10%p 우위 유지.
TechCrunch가 5월 3일 풀어 옮겼고 The Guardian·NPR·Harvard Magazine·Digital Trends가 같은 24시간 안에 따라붙었어요.

핵심 디테일 두 개. 첫째, ER triage는 정보가 가장 적고 시간 압박이 가장 큰 구간이에요. 일반 벤치마크가 아니라 실제 임상 환경에서, 그것도 가장 가혹한 단계에서 두 자릿수 차이가 났다는 게 의미가 큰 거죠. 둘째, 이미 일반 출시된 API 모델이라는 점. 누구나 OpenAI 계정만 있으면 같은 능력을 호출할 수 있다는 거예요.

"AI가 의사를 대체"는 헤드라인 과장

여기서 한 줄 짚고 갑니다. 일부 매체가 "AI가 의사를 대체했다"는 식으로 쓰고 있는데, 저자들 본인은 그렇게 말하지 않았어요. Rodman은 The Guardian에서 "AI 진단 책임소재에 대한 공식 프레임워크가 지금 없다"고 명시했고, ER 의사 Kristen Panthagani는 "흥미로운 연구지만 헤드라인은 과대포장"이라고 반박했습니다. 핵심 우려는 자동화 편향(automation bias) — 의사가 AI 출력을 무비판적으로 따라가기 시작할 가능성이에요.

표본도 76명, 텍스트만 평가했고, 영상·소리·비언어 단서는 전부 빠졌습니다. 저자 본인이 한계로 명시한 부분이고요. 헤드라인은 늘 본문 결론보다 한 단계 강하게 잡힙니다 — 본문의 caveat을 같이 들고 가셔야 합니다.

모델 라우팅을 다시 그리는 자리

그래도 이건 바뀝니다. 의료 도메인 앱을 짜는 바이브코더라면, 라우팅 규칙이 이렇게 정리됩니다.

단순 분류·요약·구조화: GPT-4o 또는 Sonnet 4.6. 비용 효율.
triage·차별 진단·근거 추론: o1 또는 Opus 4.7 (1M ctx). 시간이 걸려도 정확도 우선.
항상 동반: "이건 보조 도구이며 최종 판단은 의료진"이라는 disclaimer + 의사 review 단계.

코드 레벨에서는 router를 한 줄 분기하는 정도예요.

def pick_model(task_type: str) -> str:
    if task_type in ("classify", "summarize"):
        return "gpt-4o-mini"
    if task_type in ("triage", "differential_dx"):
        return "o1"
    return "gpt-4o"

한국 의료 SaaS의 추가 변수

HIPAA에 해당하는 한국 개인정보보호법·의료법, 그리고 대형병원 EMR과의 연동 표준이 별도 변수예요. monday.com이 vibe coding을 사내 권한 인프라 위에 얹어서 풀어냈듯, 의료 도메인은 "어떤 모델을 쓰느냐"보다 "어떤 경계 안에서 호출하느냐"가 먼저 잡혀야 합니다. 모델 정확도가 아무리 올라가도, 환자 데이터가 보안 경계를 넘는 순간 사고가 납니다.

그리고 자동화 편향. AI 출력을 default suggestion으로 띄우되 확인 전엔 차트에 들어가지 않는다는 UX 강제, 의사가 AI 의견을 override한 비율을 별도 메트릭으로 추적하기, 책임소재가 명확하지 않은 케이스에는 reasoning 모델 자체를 띄우지 않기. 이 세 가지가 모델 라우팅과 한 묶음입니다.

o1이 67%를 기록한 게 의미 있는 이유는 "AI가 의사를 이겼다"가 아니라, reasoning 모델이 가장 어려운 임상 단계에서도 buy-in을 받기 시작했다는 점이에요. 그 흐름 위에서 우리가 의료 앱을 짤 때의 default 모델이 옮겨가는 거고요.

FAQ

Q1. 그럼 의사를 AI로 대체하면 되나요?

저자들이 명시적으로 "보조 도구"로 표현했고, 책임소재 프레임워크 자체가 아직 없습니다. 대체가 아니라 라우팅·이중 확인의 문제예요.

Q2. GPT-4o는 의료에 더 이상 쓰면 안 되나요?

단순 분류·요약 task엔 충분합니다. triage·차별 진단처럼 추론이 필요한 단계만 reasoning 모델로 올리세요.

Q3. 자동화 편향은 어떻게 막나요?

AI 출력을 default suggestion으로 띄우되 "확인 전엔 차트에 들어가지 않는다"는 UX 강제, 그리고 AI 의견을 의사가 override한 비율을 별도 메트릭으로 추적하세요.